Toleransi risiko dan performa model

Ketika memprediksi perilaku pengguna, selalu ada tingkat ketidakpastian yang membutuhkan kompromi: Anda harus memutuskan apakah akan menjangkau lebih sedikit pengguna dengan akurasi keseluruhan yang lebih tinggi, atau menjangkau lebih banyak pengguna bahkan dengan akurasi keseluruhan yang lebih rendah. Kompromi ini ditentukan oleh kasus penggunaan unik Anda.

Tingkat toleransi risiko

Firebase Predictions menetapkan tingkat toleransi risiko berdasarkan dua metrik:

  • Rasio positif benar pada suatu prediksi merupakan proporsi pengguna yang melakukan tindakan yang diprediksi sebelumnya dengan benar (misalnya, proporsi pengguna yang akhirnya melakukan pembelian yang sebelumnya telah diprediksi Firebase akan melakukan pembelian).
  • Rasio positif palsu pada suatu prediksi merupakan proporsi pengguna yang tidak melakukan tindakan, berlawanan dengan prediksi sebelumnya bahwa pengguna akan melakukan tindakan tersebut (misalnya, proporsi pengguna yang tidak melakukan pembelian, yang sebelumnya diprediksi Firebase akan melakukan pembelian).

Anda memberi tahu Predictions seberapa besar ketidakpastian yang bisa Anda toleransi ketika menargetkan pengguna, dengan memilih tingkat toleransi risiko untuk prediksi. Setiap tingkat toleransi risiko menjamin bahwa tingkat positif palsu tidak akan melampaui ambang batas maksimum. Mengingat bahwa ambang batas positif palsu bersifat tetap, Predictions akan menargetkan sebanyak mungkin pengguna untuk memaksimalkan rasio positif benar tanpa melampaui ambang batas positif palsu. Jika nilai maksimum rasio positif benar yang dicapai gagal memenuhi ambang batas minimum, profil risiko akan dinonaktifkan dan tidak ada pengguna yang akan ditargetkan dengan profil risiko tersebut. Dengan cara ini, profil risiko akan menyediakan mekanisme untuk memastikan bahwa setiap penargetan yang Anda terapkan memiliki ambang batas yang bersifat pasti. Jika ambang batas tersebut tidak terpenuhi, penargetan akan dinonaktifkan.

Ketika menargetkan pengguna berdasarkan prediksi, Anda harus memilih tingkat toleransi risiko. Tergantung pada jenis prediksi dan jumlah peristiwa Analytics yang ada, Anda dapat memilih satu atau beberapa tingkat berikut:

Tingkat toleransi risiko
Tinggi
  • Menargetkan sebagian besar pengguna, namun memiliki tingkat akurasi prediksi yang rendah
  • Menjamin rasio positif palsu maksimal 20%
  • Tidak aktif saat rasio positif benar turun di bawah 45%
  • Untuk setiap 10 pengguna yang ditargetkan dengan tepat, maksimal 4,44 pengguna (10 × 20% ÷ 45%) tidak ditargetkan dengan tepat*
Sedang
  • Menargetkan lebih sedikit pengguna, dan memiliki tingkat akurasi yang lebih tinggi
  • Menjamin rasio positif palsu maksimal 10%
  • Tidak aktif saat rasio positif benar turun di bawah 35%
  • Untuk setiap 10 pengguna yang ditargetkan dengan tepat, maksimal 2,86 pengguna (10 × 10% ÷ 35%) tidak ditargetkan dengan tepat*
Rendah
  • Menargetkan paling sedikit pengguna, dengan tingkat akurasi terbaik
  • Menjamin rasio positif palsu maksimal 5%
  • Tidak aktif saat rasio positif benar turun di bawah 25%
  • Untuk setiap 10 pengguna yang ditargetkan dengan tepat, maksimal 2 pengguna (10 × 5% ÷ 25%) tidak ditargetkan dengan tepat*

*Dengan asumsi jumlah kasus positif setara dengan jumlah kasus negatif di antara pengguna Anda. Jika jumlah kasus negatif X kali lebih banyak dibandingkan kasus positif, kalikan jumlah maksimum positif palsu dengan X.

Contoh

Misalnya Anda memiliki aplikasi dengan 35.000 pengguna, dan ingin memprediksi pengguna yang akan berhenti menggunakan aplikasi tersebut (atau churn out) dalam beberapa hari ke depan, sehingga Anda dapat melakukan sesuatu untuk mendorong mereka agar terus menggunakan aplikasi.

Pada gambar di bawah, masing-masing wajah mewakili 1.000 pengguna Anda. Grup yang puas dan tidak akan melakukan churn out diwarnai hijau, sedangkan yang tidak puas dan akan melakukan churn out diwarnai merah.

Toleransi risiko tinggi

Dengan toleransi risiko tinggi, Predictions dapat membuat grup seperti yang ada di gambar di bawah ini. Grup tersebut mencakup 10.000 dari 13.000 pengguna yang tidak puas. Oleh karena itu, rasio positif benar dari prediksi ini sekitar 76,9%. Jika toleransi risiko tinggi dipilih dan nilai ini pernah turun di bawah 45%, prediksi akan menjadi tidak aktif hingga rasio positif benar meningkat.

Grup ini juga mencakup 4.000 pengguna yang puas dengan aplikasi Anda, dan yang mungkin tidak ingin Anda targetkan dalam strategi engagement ulang. Karena 4.000 dari 22.000 pengguna Anda yang merasa puas telah salah diprediksi akan melakukan churn out, rasio positif palsu prediksi ini berada di kisaran angka 18,18%. Jumlah tersebut berada di bawah rasio positif palsu maksimum sebesar 20% dan dijamin oleh profil toleransi risiko tinggi.

sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied

Toleransi risiko rendah

Di sisi lain, gambar di bawah menunjukkan gambaran tampilan grup yang dibuat dengan toleransi risiko yang rendah. Grup ini berisi positif palsu yang lebih sedikit, hanya 1.000 pengguna, tetapi juga mencakup pengguna yang tidak puas dengan jumlah 4.000 lebih sedikit dibandingkan dengan grup toleransi risiko tinggi. Rasio positif benar pada prediksi ini adalah sekitar 46,15%, dan rasio positif palsunya sekitar 4,55%.

sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied sentiment_very_satisfied
sentiment_very_satisfied sentiment_very_satisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied
sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied sentiment_very_dissatisfied

Melihat pengaruh toleransi risiko terhadap performa

Karena kualitas prediksi Anda dapat berubah setiap hari, ada kemungkinan bahwa prediksi, berdasarkan profil risiko tertentu, akan aktif satu hari, tetapi tidak aktif pada hari berikutnya. Untuk alasan ini, pengaruh profil risiko prediksi terhadap keandalannya sangat penting untuk dipahami. Hal ini bertujuan untuk memutuskan profil risiko yang harus digunakan untuk menargetkan pengguna Anda.

Misalnya, jika Anda menyiapkan parameter Remote Config berdasarkan profil risiko tertentu, pada hari saat prediksi tersebut tidak aktif, Remote Config tidak akan menetapkan nilai ke parameter, dan semua pengguna Anda akan mendapatkan perilaku default yang telah Anda tetapkan sebelumnya. Bergantung pada kasus penggunaan Anda, hal ini mungkin dapat diterima. Namun jika tidak, Anda perlu mengetahui profil risiko yang memberikan prediksi yang dapat diandalkan secara aktif.

Untuk membantu Anda memahami pengaruh toleransi risiko terhadap keandalan prediksi Anda, setiap kartu prediksi di Firebase console memiliki footer yang menunjukkan seberapa andal prediksi tersebut dalam 2 minggu terakhir, untuk masing-masing dari tiga profil risiko yang tersedia.

Untuk mengetahui detail lebih lanjut tentang performa prediksi, Anda dapat memperluas bagian performa kartu:

Grafik tersebut menunjukkan rasio positif benar pada model prediksi untuk data Anda selama dua minggu terakhir. Setiap titik data pada grafik menunjukkan seberapa baik performa model pada hari tersebut di set data pisahan (baca bagian Cara penghitungan statistik performa). Grafik ditampilkan dalam warna merah di hari apa pun ketika rasio positif benar turun di bawah ambang batas yang diwajibkan. Pada hari-hari seperti itu, Firebase akan menonaktifkan penargetan pengguna berdasarkan prediksi.

Jika model Anda tidak aktif beberapa hari pada 14 hari terakhir, sebaiknya Anda mempertimbangkan untuk meningkatkan tingkat toleransi risiko guna menargetkan lebih banyak pengguna dan menghindari hari tidak aktif. Akan tetapi, hal tersebut berpotensi menghasilkan jumlah positif palsu yang lebih banyak. Anda dapat melihat bagaimana pengaruh tingkat toleransi risiko yang berbeda pada performa model, dengan menggerakkan penggeser Toleransi risiko ke posisi berbeda:

Ketika Anda melakukannya, grafik akan menunjukkan seberapa baik performa model setiap hari dengan tingkat toleransi risiko yang dipilih. Dalam contoh di atas, Anda dapat melihat bahwa rasio positif benar model tetap berada di atas ambang batas 45% pada dua minggu terakhir dengan meningkatkan toleransi risiko dari sedang ke tinggi (tetapi dengan toleransi yang lebih besar untuk positif palsu).

Ketika Anda sudah menemukan tingkat toleransi risiko yang cocok yang mencapai keseimbangan antara jangkauan pengguna dan akurasi, pilih tingkat toleransi risiko tersebut ketika Anda menargetkan pengguna dengan Remote Config, Pengujian A/B, atau Notifications composer.

Cara penghitungan statistik performa

Pelabelan

Seperti banyak tugas machine learning, melatih model Predictions adalah tugas "pemelajaran terarah". Artinya, semua pengguna yang digunakan untuk melatih model harus diberi label, seperti "akan melakukan churn out", "tidak akan berbelanja", dan seterusnya. Untuk memberi label kepada pengguna, Predictions akan mengambil semua pengguna aktif selama 28 hari dari aplikasi Anda, dan menghapus peristiwa 7 hari terakhir dari data mereka. Periode ini disebut periode label. Firebase Predictions akan menggunakan peristiwa dari periode label untuk menetapkan label kepada pengguna, kemudian menggunakan peristiwa pengguna sebelum 7 hari tersebut (peristiwa dari periode pelatihan) untuk melatih model.

Data pisahan dan data pelatihan

Tidak semua data digunakan secara langsung untuk pelatihan. Seperti halnya tugas pembelajaran yang diawasi, Predictions menyisihkan 20% data sebagai data pisahan dan hanya menggunakan 80% data untuk melatih model. Kemudian, untuk mengevaluasi performa model, prediksi dibuat untuk pengguna dalam set pisahan, berdasarkan data di periode pelatihan, dan dibandingkan dengan hasil sebenarnya untuk setiap pengguna, berdasarkan label yang dihasilkan dari periode label.

Semua statistik yang disajikan di Firebase console berasal dari evaluasi model terhadap data pisahan.

Kirim masukan tentang...

Butuh bantuan? Kunjungi halaman dukungan kami.