Model bahasa tidak hanya membuat kesalahan—mereka memfabrikasi realitas dengan keyakinan penuh. Agen AI mungkin mengklaim telah membuat catatan database yang tidak ada, atau bersikeras telah melakukan tindakan yang tidak pernah dicoba. Bagi tim yang menerapkan sistem ini dalam produksi, perbedaan itu menentukan cara Anda memperbaiki masalahnya.
Dmytro Kyiashko berspesialisasi dalam pengujian sistem AI. Pekerjaannya berfokus pada satu pertanyaan: bagaimana Anda secara sistematis menangkap saat model berbohong?
Masalah Dengan Menguji Omong Kosong yang Percaya Diri
Perangkat lunak tradisional gagal secara dapat diprediksi. Fungsi yang rusak mengembalikan kesalahan. API yang salah dikonfigurasi memberikan sinyal kegagalan deterministik—biasanya kode status HTTP standar dan pesan kesalahan yang dapat dibaca menjelaskan apa yang salah.
Model bahasa rusak secara berbeda. Mereka akan melaporkan menyelesaikan tugas yang tidak pernah mereka mulai, mengambil informasi dari database yang tidak pernah mereka kueri, dan menjelaskan tindakan yang hanya ada dalam data pelatihan mereka. Responsnya terlihat benar. Kontennya difabrikasi.
"Setiap agen AI beroperasi sesuai dengan instruksi yang disiapkan oleh insinyur," jelas Kyiashko. "Kami tahu persis apa yang dapat dan tidak dapat dilakukan agen kami." Pengetahuan itu menjadi dasar untuk membedakan halusinasi dari kesalahan.
Jika agen yang dilatih untuk mengkueri database gagal secara diam-diam, itu adalah bug. Tetapi jika mengembalikan hasil kueri terperinci tanpa menyentuh database? Itu adalah halusinasi. Model menemukan output yang masuk akal berdasarkan pola pelatihan.
Validasi Terhadap Kebenaran Dasar
Pendekatan Kyiashko berpusat pada verifikasi terhadap keadaan sistem aktual. Ketika agen mengklaim telah membuat catatan, tesnya memeriksa apakah catatan tersebut ada. Respons agen tidak penting jika sistem membantahnya.
"Saya biasanya menggunakan berbagai jenis tes negatif—baik unit maupun integrasi—untuk memeriksa halusinasi LLM," catatnya. Tes ini sengaja meminta tindakan yang tidak memiliki izin untuk dilakukan agen, kemudian memvalidasi agen tidak secara keliru mengonfirmasi keberhasilan dan keadaan sistem tetap tidak berubah.
Satu teknik menguji terhadap batasan yang diketahui. Agen tanpa izin menulis database diminta untuk membuat catatan. Tes memvalidasi tidak ada data tidak sah yang muncul dan respons tidak mengklaim keberhasilan.
Metode paling efektif menggunakan data produksi. "Saya menggunakan riwayat percakapan pelanggan, mengonversi semuanya ke format JSON, dan menjalankan tes saya menggunakan file JSON ini." Setiap percakapan menjadi kasus uji yang menganalisis apakah agen membuat klaim yang bertentangan dengan log sistem.
Ini menangkap pola yang terlewatkan oleh tes sintetis. Pengguna nyata menciptakan kondisi yang mengekspos kasus tepi. Log produksi mengungkapkan di mana model berhalusinasi dalam penggunaan aktual.
Dua Strategi Evaluasi
Kyiashko menggunakan dua pendekatan pelengkap untuk mengevaluasi sistem AI.
Evaluator berbasis kode menangani verifikasi objektif. "Evaluator berbasis kode ideal ketika definisi kegagalan bersifat objektif dan dapat diperiksa dengan aturan. Misalnya: mem-parsing struktur, memeriksa validitas JSON atau sintaks SQL," jelasnya.
Tetapi beberapa kegagalan menolak klasifikasi biner. Apakah nadanya tepat? Apakah ringkasannya setia? Apakah responsnya membantu? "Evaluator LLM-as-Judge digunakan ketika mode kegagalan melibatkan interpretasi atau nuansa yang tidak dapat ditangkap kode."
Untuk pendekatan LLM-as-Judge, Kyiashko mengandalkan LangGraph. Tidak ada pendekatan yang bekerja sendiri. Kerangka kerja yang efektif menggunakan keduanya.
Apa yang Terlewatkan Pelatihan QA Klasik
Insinyur kualitas berpengalaman kesulitan ketika pertama kali menguji sistem AI. Asumsi yang membuat mereka efektif tidak dapat ditransfer.
"Dalam QA klasik, kami tahu persis format respons sistem, kami tahu persis format data input dan output," jelas Kyiashko. "Dalam pengujian sistem AI, tidak ada hal seperti itu." Data input adalah prompt—dan variasi dalam cara pelanggan mengajukan permintaan tidak terbatas.
Ini menuntut pemantauan berkelanjutan. Kyiashko menyebutnya "analisis kesalahan berkelanjutan"—secara teratur meninjau bagaimana agen merespons pengguna aktual, mengidentifikasi di mana mereka memfabrikasi informasi, dan memperbarui rangkaian tes sesuai dengan itu.
Tantangan bertambah dengan volume instruksi. Sistem AI memerlukan prompt ekstensif yang mendefinisikan perilaku dan batasan. Setiap instruksi dapat berinteraksi secara tidak terduga dengan yang lain. "Salah satu masalah dengan sistem AI adalah sejumlah besar instruksi yang terus-menerus perlu diperbarui dan diuji," catatnya.
Kesenjangan pengetahuan signifikan. Sebagian besar insinyur tidak memiliki pemahaman yang jelas tentang metrik yang tepat, persiapan dataset yang efektif, atau metode yang andal untuk memvalidasi output yang berubah dengan setiap menjalankan. "Membuat agen AI tidaklah sulit," amati Kyiashko. "Mengotomatiskan pengujian agen itu adalah tantangan utama. Dari pengamatan dan pengalaman saya, lebih banyak waktu dihabiskan untuk menguji dan mengoptimalkan sistem AI daripada membuatnya."
Rilis Mingguan yang Andal
Halusinasi mengikis kepercayaan lebih cepat daripada bug. Fitur yang rusak membuat frustrasi pengguna. Agen yang dengan percaya diri memberikan informasi palsu menghancurkan kredibilitas.
Metodologi pengujian Kyiashko memungkinkan rilis mingguan yang andal. Validasi otomatis menangkap regresi sebelum penerapan. Sistem yang dilatih dan diuji dengan data nyata menangani sebagian besar permintaan pelanggan dengan benar.
Iterasi mingguan mendorong keunggulan kompetitif. Sistem AI meningkat melalui penambahan kemampuan, penyempurnaan respons, perluasan domain.
Mengapa Ini Penting untuk Rekayasa Kualitas
Perusahaan yang mengintegrasikan AI berkembang setiap hari. "Dunia telah melihat manfaat menggunakan AI, jadi tidak ada jalan kembali," argumentasi Kyiashko. Adopsi AI dipercepat di seluruh industri—lebih banyak startup diluncurkan, lebih banyak perusahaan mengintegrasikan kecerdasan ke dalam produk inti.
Jika insinyur membangun sistem AI, mereka harus memahami cara mengujinya. "Bahkan hari ini, kita perlu memahami bagaimana LLM bekerja, bagaimana agen AI dibangun, bagaimana agen ini diuji, dan bagaimana mengotomatiskan pemeriksaan ini."
Rekayasa prompt menjadi wajib bagi insinyur kualitas. Pengujian data dan validasi data dinamis mengikuti lintasan yang sama. "Ini seharusnya sudah menjadi keterampilan dasar insinyur pengujian."
Pola yang dilihat Kyiashko di seluruh industri mengonfirmasi pergeseran ini. Melalui pekerjaannya meninjau makalah teknis tentang evaluasi AI dan menilai arsitektur startup di forum teknis, masalah yang sama muncul berulang kali: tim di mana-mana menghadapi masalah yang identik. Tantangan validasi yang ia selesaikan dalam produksi bertahun-tahun yang lalu sekarang menjadi kekhawatiran universal saat penerapan AI berskala.
Infrastruktur Pengujian yang Berskala
Metodologi Kyiashko membahas prinsip evaluasi, penilaian percakapan multi-turn, dan metrik untuk mode kegagalan yang berbeda.
Konsep inti: pengujian terdiversifikasi. Validasi tingkat kode menangkap kesalahan struktural. Evaluasi LLM-as-Judge memungkinkan penilaian efektivitas dan akurasi sistem AI tergantung pada versi LLM mana yang digunakan. Analisis kesalahan manual mengidentifikasi pola. Pengujian RAG memverifikasi agen menggunakan konteks yang disediakan daripada menemukan detail.
"Kerangka kerja yang saya jelaskan didasarkan pada konsep pendekatan terdiversifikasi untuk menguji sistem AI. Kami menggunakan cakupan tingkat kode, evaluator LLM-as-Judge, analisis kesalahan manual, dan Evaluating Retrieval-Augmented Generation." Beberapa metode validasi yang bekerja bersama menangkap berbagai jenis halusinasi yang terlewatkan oleh pendekatan tunggal.
Apa yang Akan Datang Selanjutnya
Bidang ini mendefinisikan praktik terbaik secara real time melalui kegagalan produksi dan penyempurnaan iteratif. Lebih banyak perusahaan menerapkan AI generatif. Lebih banyak model membuat keputusan otonom. Sistem menjadi lebih mampu, yang berarti halusinasi menjadi lebih masuk akal.
Tetapi pengujian sistematis menangkap fabrikasi sebelum pengguna menghadapinya. Pengujian untuk halusinasi bukan tentang kesempurnaan—model akan selalu memiliki kasus tepi di mana mereka memfabrikasi. Ini tentang menangkap fabrikasi secara sistematis dan mencegahnya mencapai produksi.
Teknik-teknik ini bekerja ketika diterapkan dengan benar. Yang hilang adalah pemahaman luas tentang cara mengimplementasikannya dalam lingkungan produksi di mana keandalan penting.
Dmytro Kyiashko adalah Software Developer in Test yang berspesialisasi dalam pengujian sistem AI, dengan pengalaman membangun kerangka kerja pengujian untuk AI percakapan dan agen otonom. Pekerjaannya memeriksa tantangan keandalan dan validasi dalam sistem AI multimodal.


