Cara Tokopedia Selesaikan Insiden Tanpa Ada Pihak yang Dirugikan

pada 4 tahun lalu - by
Advertising
Advertising

 

Uzone.id- Melayani pelanggan merupakan salah budaya yang berasal dari nilai customer centric di Tokopedia. Hal ini merupakan suatu hal yang ditanamkan di dalam diri karyawan ecommerce yang saat ini memiliki total pengguna aktif sebanyak 100 juta setiap bulan, dan ekosistem yang membantu lebih dari 9,9 juta penjual.

Seluruh tim, termasuk tim teknologi Tokopedia, juga tak luput dalam menanamkan budaya tersebut. Melalui acara START Summit Extension yang diadakan pada 17 Desember 2020, para tim Engineer Tokopedia kembali hadir untuk membagikan praktik terbaik mereka dalam membangun dan meningkatkan budaya kewaspadaan terhadap sistem platform Tokopedia.

Dengan tema “High Severity! Behind Tokopedia’s Reliable Incident Management”, START Summit Extension Desember terbagi ke dalam beberapa sesi, dimana sesi pertama adalah pemaparan langsung oleh ketiga tim Engineer Tokopedia yakni Timothy Agustian, Software Engineer Lead – Purchase Platform, Danish Jatmiko, Engineering Manager – Order & Campaign serta Viriya Saddha Pannindriya, Software Engineer Lead – Order yang membagikan tips terbaik mereka dalam mengelola insiden, dilanjutkan dengan sesi panel diskusi serta sesi tanya jawab.

Sebagai pembuka, Timothy Agustian memberikan penjelasan tentang bagaimana budaya kerja yang diterapkan oleh setiap karyawan dapat membentuk keseharian tim Engineer. Budaya yang mereka terapkan bukanlah tuntutan atau hal yang dipaksakan oleh pihak manajemen maupun pemimpin mereka. Timothy menjelaskan bahwa suatu budaya dapat dibentuk dari diri kita sendiri sehingga budaya tersebut lah yang nantinya akan menentukan bagaimana perusahaan tersebut dapat berhasil memenangkan hati pengguna.

Menurut Timothy, sebagai perusahaan yang dipercaya oleh jutaan penjual dan pembeli, seluruh tim teknologi Tokopedia memiliki tanggung jawab yang besar untuk mengelola setiap insiden yang terjadi. Menyelesaikan suatu insiden tanpa ada pihak yang dirugikan merupakan prioritas utama, sehingga menanamkan budaya kewaspadaan yang tinggi dan keandalan dalam mengelola serta mengidentifikasi masalah teknis sangatlah penting.

Tahap I: Preparation & Monitoring

Oleh karena itu, dijelaskan lebih lanjut, Tokopedia memiliki beberapa tahapan dalam mengelola insiden. Tahapan yang pertama adalah Preparation & Monitoring, dimana tahap ini merupakan fase pertama untuk mempersiapkan sistem ketika insiden belum terjadi. Fase ini adalah fase awal yang akan mempengaruhi fase-fase berikutnya. Timothy menjelaskan bahwa fase ini terbagi ke dalam beberapa poin penting, yakni:

Trained Team Member
Hal utama yang perlu disiapkan adalah melatih anggota tim. Bagi setiap developer, mereka harus memiliki pengetahuan dasar tentang use case yang perlu ditangani, serta infrastruktur dan bagaimana alur dari setiap bisnis secara umum untuk membantu mereka dalam mengidentifikasi masalah apa yang nantinya dapat terjadi, dan bagaimana mereka dapat menangani masalah tersebut.

One-Stop for All Team Documentation
Sebagai seorang developer yang sudah berpengalaman dan terbiasa menangani insiden, mengumpulkan dan membuat dokumentasi merupakan hal yang sangat penting sehingga segala informasi yang berkaitan dengan insiden manajemen dapat dengan mudah diakses oleh tim-tim member lainnya untuk dapat dijadikan acuan.

Good Monitoring Platform
Poin ini juga tak kalah penting, dimana tahap ini berguna untuk membantu kita mengetahui keadaan server atau bisnis secara real time, sehingga kita dapat memantau secara berkala dan mempersiapkan berbagai kemungkinan yang dapat terjadi.

Tahap II: Alerting

Masih dijelaskan oleh Timothy, ia melanjutkan tentang tahap kedua dalam proses mengelola insiden Tokopedia, yakni Alerting, dimana ini merupakan fase pertama yang dilakukan ketika terjadi insiden. Saat alarm sudah berbunyi, maka ini merupakan tanda bahwa terdapat suatu insiden. Insiden yang baik adalah jika alertingnya juga baik, sehingga kita dapat langsung mengetahui saat insiden terjadi dan tidak mengetahuinya dari pihak eksternal atau pengguna, melainkan dapat mengetahuinya terlebih dulu.

Selain itu, alarm yang baik memiliki tiga kriteria, yaitu:

Escalated Alert, dimana kita bisa mengetahui seberapa bahaya insiden yang terjadi, dan seberapa cepat kita bisa menyelesaikan insiden tersebut.

Informative, yaitu ketika terdapat tim member baru atau ada tim lain yang bukan merupakan tim teknologi melihat alarm tersebut, maka mereka akan langsung mengerti tentang situasi yang terjadi.

To the Point, dimana alarm tersebut dapat langsung menjelaskan suatu insiden secara tepat dan akurat.

Dalam fase Alerting, poin yang juga tak kalah penting adalah Basic Knowledge Alarm, dimana setiap anggota tim perlu memiliki pengetahuan dasar untuk dapat mendefinisikan suatu alarm serta menentukan langkah apa yang harus segera dilakukan. Hal ini juga berguna untuk dapat meminimalisir rasa panik yang muncul dikarenakan kita sudah mengetahui maksud dari setiap alarm yang ada.

Setelah Basic Knowledge Alarm, Incident Management Platform juga dijelaskan sebagai poin yang perlu diperhatikan. Ketika terjadi insiden, kita perlu membuat jalur komunikasi yang baik untuk dapat langsung menghubungi pihak-pihak yang berkaitan dengan insiden tersebut. Apabila tim yang menangani insiden ini tidak available, maka kita dapat dengan mudah melakukan eskalasi ke tim leader, head, dan seterusnya. Dengan platform ini, diharapkan semua stakeholders dapat aware dan sigap dalam menangani insiden.

Tahap III: Triage & Notify

Tahapan ketiga setelah Alerting adalah Triage & Notify yang dijelaskan oleh Danish Jatmiko, Engineering Manager – Order & Campaign Tokopedia. Ia menjelaskan bahwa seluruh leader di Tokopedia selalu menekankan agar setiap tim selalu berharap yang terbaik. Namun, apabila hal buruk terjadi, kita juga diharapkan untuk dapat sigap dengan SOP yang sudah dikemas dengan baik.

Tahapan ini menjelaskan tentang apa yang perlu dilakukan saat insiden datang. Jika sebelumnya Alerting & Monitoring sudah disiapkan dengan baik, maka kita akan memiliki sistem yang bagus. Melalui Alerting & Monitoring, kita dapat mengetahui keadaan atau kesehatan sistem kita. Lalu, apa yang harus dilakukan jika ternyata terjadi suatu insiden terhadap sistem?

Danish menjelaskan bahwa hal pertama yang perlu dilakukan adalah menjaga agar kita tidak panik. Terlebih, sebagai pemimpin kita perlu mengendalikan dan mengatur situasi yang terjadi. Kita perlu menenangkan pikiran agar dapat mengambil keputusan dan membaca kondisi dengan maksimal. Selanjutnya, kita juga perlu mengetahui kondisi sistem kita seperti apa agar dapat mengenali dan mengidentifikasi musuh kita. Hal ini dapat membantu kita untuk mengetahui kelemahan dan kelebihan yang kita miliki.

Sebagai contoh, ketika traffic sedang mengalami down, kita perlu tahu apa penyebabnya, apakah karena koneksi, PPN, atau servis lainnya. Dengan Alerting & Monitoring, kita dapat langsung mengetahui penyebabnya serta bagaimana kita dapat mengatasi hal tersebut. Lebih lanjut, Danish menjelaskan bahwa kita juga perlu tahu mengenai dampak yang terjadi setelahnya, baik itu dampak pada halaman penjualan,transaksi penjualan, dan sebagainya.

Setelah kita mengetahui semua dampak yang akan terjadi, kita bisa melakukan over communicate kepada stakeholders yang memiliki andil terhadap produk/platform tersebut, seperti tim produk dan tim operasional yang akan membantu menyampaikan informasi terkait kendala sistem ini kepada pengguna. Dengan over communicate, kita dapat mencegah terjadinya hal-hal yang tidak diinginkan oleh pengguna maupun penjual Tokopedia.

Langkah yang tidak kalah pentingnya adalah bagaimana cara kita meredam atau menghentikan insiden yang terjadi sesegera mungkin. Kita bisa memberikan solusi sementara untuk dapat memperbaiki keadaan. Setelah insiden dapat diatasi dan kembali normal, kita dapat mengetahui apa yang sebenarnya terjadi dan mencari tahu solusi jangka panjangnya.

Tahap IV: Post-Mortem Investigation and Resolution

Tahapan terakhir pada manajemen insiden adalah Post-Mortem Investigation and Resolution yang dijelaskan oleh Viriya Saddha Pannindriya, Software Engineer Lead – Order Tokopedia. Pada tahap ini, kita perlu mencari tahu lebih dalam dan mendetail mengenai penyebab dari insiden yang terjadi. Viriya menjelaskan bahwa ketika mengalami insiden, kita menjadi panik dan mencari solusi dengan cara yang cepat.

Namun, solusi tersebut bisa jadi bukanlah solusi yang tepat dan benar-benar merupakan akar dari permasalahan tersebut. Kita harus terus menggali lebih dalam tentang root cause sehingga dapat menentukan solusi jangka panjang. Setelah itu, kita dapat masuk ke tahap collateral damage, dimana kita juga perlu mencari tahu apakah root cause ini akan berdampak ke hal yang lainnya atau tidak karena insiden yang terjadi bisa saja berdampak pada sistem atau bisnis unit lainnya.

Oleh karena itu, penting untuk melihat masalah sampai ke akar agar dapat mengetahui seberapa luas isu yang dihadapi. Setelah kita mengetahui core problems dan akar permasalahannya, kita dapat melanjutkan ke tahap berikutnya yakni memastikan agar insiden tersebut tidak terjadi lagi. Melalui Alerting dan Monitoring, kita dapat memperbaiki setiap temuan yang ada dan disesuaikan dengan prosedur dari Alerting dan Monitoring tersebut.

Viriya menjelaskan langkah terakhir yang ada pada tahapan Post-Mortem Investigation and Resolution yakni Documentation. Pada fase ini, penting untuk menjaga bagaimana suatu insiden yang pernah terjadi tidak terjadi kembali di kemudian hari. Oleh karena itu, kita perlu membuat sebuah dokumentasi dari pengalaman atau insiden tersebut sebagai track record. Dokumentasi ini berisikan tentang bagaimana kita mengatasi suatu insiden, beserta cara-cara yang dilakukan untuk memperbaiki insiden tersebut. Hal ini bertujuan agar seluruh tim, baik yang sudah bekerja dalam kurun waktu yang lama, maupun tim yang baru bergabung dapat belajar dan melihat kembali tentang berbagai cara untuk menangani suatu insiden.

Sebagai penutup, Viriya membagikan kutipan yaitu “Organizational culture is a living creature and employees are the ones who faced it”. Kutipan ini memiliki makna bahwa setiap hal yang dilakukan oleh setiap tim yang ada di suatu perusahaan merupakan nilai yang mencerminkan perusahaan tersebut. Setiap karyawan atau anggota dari suatu organisasi perlu memahami apa yang dilakukan dan berusaha untuk melakukan yang terbaik agar organisasi tersebut menjadi satu tempat yang mendukung perkembangan setiap tim yang ada.

START Summit Extension Desember menutup akhir tahun dengan lebih dari 30 ribu penonton yang menyaksikan acara ini melalui Tokopedia Play. Di tahun 2021 mendatang, Tokopedia melalui Tokopedia Academy akan kembali menghadirkan rangkaian acara teknologi yang membagikan dan membawakan tema serta praktik terbaik untuk mendorong perkembangan talenta digital masa depan di Indonesia.