Ketika berbicara tentang uplift modeling, metrik kinerja tradisional yang biasa digunakan untuk tugas machine learning lainnya mungkin tidak memadai.
Algoritma machine learning standar / kasus bisnis belajar dari data pelatihan, memprediksi target pada data uji dan membandingkannya dengan ground truth.
Namun, dalam uplift modeling, konsep ground truth menjadi sulit dipahami karena kita tidak dapat mengamati dampak dari perlakuan dan tidak diberi perlakuan pada individu secara bersamaan.
Pemilihan data untuk melatih dan menguji model uplift bergantung pada informasi yang tersedia dan konteks spesifik.
Model uplift umumnya digunakan untuk kampanye pemasaran. Mari kita ilustrasikan bagaimana data validasi dipilih dari perspektif ini.
Jika kita memiliki satu kampanye, kita dapat membagi pelanggan dalam kampanye tersebut menjadi set pelatihan dan validasi.
Namun, jika ada beberapa kampanye yang tersedia, kita dapat memanfaatkan beberapa kampanye untuk melatih model dan menyimpan yang lain untuk validasi. Strategi ini memungkinkan model untuk belajar dari berbagai skenario yang lebih luas dan berpotensi meningkatkan kemampuan generalisasinya.
Tanpa komponen-komponen penting ini, menangkap uplift secara akurat menjadi tantangan.
Ada dua cara utama untuk menilai kinerja model uplift: Cumulative Gain dan Qini. Mari kita jelajahi:
Cumulative gain menggambarkan tingkat respons inkremental atau hasil yang dicapai dengan menargetkan persentase tertentu dari populasi.
Untuk menghitung cumulative gain, individu diberi peringkat berdasarkan skor uplift mereka, dan daftar yang diurutkan dibagi menjadi serangkaian kelompok desil atau persentil dengan ukuran yang sama. Cumulative gain kemudian dihitung dengan menjumlahkan hasil atau respons individu dalam setiap kelompok.
N : jumlah klien untuk kelompok kontrol (C) dan perlakuan (T) untuk p% pertama klien
Y : Jumlah uplift kita dalam metrik yang kita pilih untuk kelompok kontrol (C) dan perlakuan (T) untuk p% pertama klien
Misalnya, CG pada 20% populasi yang ditargetkan sesuai dengan total keuntungan inkremental jika kita hanya memperlakukan instance dengan 20% skor tertinggi.
Dalam contoh yang diberikan di bawah ini, kita mengamati bahwa menargetkan 20% teratas klien dengan skor tertinggi menghasilkan cumulative gain sebesar 0,019.
Kurva yang lebih curam menunjukkan model yang lebih baik, karena menunjukkan bahwa proporsi individu yang lebih tinggi dengan prediksi uplift tertinggi sedang ditargetkan.
Koefisien Qini bekerja dengan ide yang sama seperti Cumulative Gain, dengan satu perbedaan utama.
Rumus untuk menghitungnya:
Itu bagus tetapi bagaimana kita akan memilih antara model yang berbeda? Hanya mengandalkan kurva ini untuk memilih antara model yang berbeda mungkin bukan pendekatan yang paling berbasis data.
Ada tiga metrik paling berguna yang dapat membantu kita dan semuanya dapat diterapkan pada pendekatan Qini dan Cumulative Gain.
Mirip dengan area under the ROC curve (AUC-ROC) dalam klasifikasi tradisional, AUC-U mengukur kinerja keseluruhan dari model uplift. Ini menghitung area di bawah kurva uplift / Qini, yang mewakili uplift kumulatif sepanjang individu yang diurutkan berdasarkan prediksi model uplift.
Uplift@K berfokus pada identifikasi K% teratas dari populasi dengan prediksi uplift tertinggi. Ini mengukur proporsi individu yang benar-benar responsif dalam kelompok yang dipilih ini. Nilai uplift@K yang lebih tinggi menunjukkan model yang lebih baik dalam menargetkan individu yang tepat.
Dalam contoh di bawah ini Uplift@0,2 untuk model pertama kira-kira 0,16 dan untuk model kedua adalah 0,19, dan pilihan model terbaik sudah jelas.
Kapan metrik ini dapat membantu?
Uplift max mengacu pada uplift maksimum yang dicapai oleh model. Ini mewakili perbedaan antara kelompok yang diberi perlakuan dan kontrol dengan skor uplift tertinggi.
Kita telah menyaksikan bahwa metrik klasifikasi dan regresi tradisional mungkin tidak cukup mengukur efektivitas model uplift.
Untuk mengatasi ini, dua pendekatan utama, CG dan Qini, menawarkan metrik yang berharga untuk evaluasi.
Sangat penting untuk terus bereksperimen dengan berbagai variasi dan menemukan metrik yang paling selaras dengan tujuan Anda. Dengan mengeksplorasi dan menyempurnakan pendekatan Anda, Anda dapat secara efektif mengukur dampak model uplift dan mengoptimalkan kinerjanya.
\n
\


