Hai! Nama saya Ashton, dan saya adalah insinyur pendiri di Theta di mana saya bekerja pada infrastruktur RL, RL, dan sistem terdistribusi. Saya secara khusus fokus pada penggunaan komputer dan penggunaan alat. Sebelumnya, saya bekerja di Amazon AGI dan menangani infrastruktur inferensi dan penggunaan alat. Di waktu luang, saya suka desain grafis, proyek sampingan, dan panjat tebing.
Cerita terbaru saya, "Bisakah AI Anda Benar-benar Menggunakan Komputer? Peta Tolok Ukur Penggunaan Komputer 2025," menyentuh salah satu ruang terpanas di VC saat ini: lingkungan RL dan evaluasi. Saya memberikan gambaran komprehensif tentang tolok ukur penggunaan komputer yang paling banyak digunakan, plus saran praktis tentang cara memilih tolok ukur untuk melatih dan menguji agen penggunaan komputer.
Saya terus menemukan kesenjangan yang sama: tidak banyak artikel yang mengulas tolok ukur itu sendiri. Dan seiring pertumbuhan bidang ini, sangat penting bahwa kita benar-benar menilai kualitas alih-alih memberi penghargaan pada apa pun yang kebetulan mempermainkan metrik. Kita pernah mengalami ini sebelumnya. Pada masa awal LLM, tolok ukur cukup acak dan berbeda sehingga hanya lemah mencerminkan pemenang sebenarnya.
Tolok ukur menjadi papan skor de facto untuk "model terbaik," dan kemudian orang menyadari bahwa banyak dari mereka tidak mengukur apa yang mereka klaim.
Salah satu kegagalan era awal yang paling mengungkapkan adalah ketika "pemahaman bacaan" diam-diam menjadi "pencocokan pola pada struktur dataset." Peneliti menjalankan baseline yang sengaja provokatif (hanya pertanyaan, hanya kalimat terakhir), dan hasilnya cukup tinggi untuk menimbulkan kemungkinan yang tidak nyaman: tolok ukur tidak secara konsisten memaksa model untuk menggunakan seluruh bagian. Dalam kritik 2018, intinya bukan bahwa membaca tidak pernah penting, tetapi bahwa beberapa dataset secara tidak sengaja membuatnya opsional dengan terlalu banyak memberi penghargaan pada jalan pintas seperti kebaruan dan stereotip jawaban sebelumnya.
\
# Tugas yang seharusnya: jawab pertanyaan berdasarkan bagian dan pertanyaan Bagian (ringkasan): - Kalimat 1–8: Hari John di sekolah (sebagian besar detail tidak relevan) - Kalimat 9: "Setelah sekolah, John pergi ke dapur." - Kalimat 10: "Dia makan sepotong pizza sebelum mulai mengerjakan PR-nya." Pertanyaan: "Apa yang John makan?" Jawaban: "pizza"
Tolok ukur secara tidak sengaja memberi penghargaan pada jalan pintas di mana model terlalu memberi bobot pada kalimat terakhir (karena jawaban sering berada di dekat akhir) dan hanya mengekstrak objek langsung dari tindakan terbaru ("makan ___"), yang dalam hal ini menghasilkan "pizza."
Dan kemudian muncul baseline yang lebih merusak: hapus seluruh bagian dan lihat apa yang terjadi. Jika model yang hanya berisi pertanyaan bersaing, itu adalah tanda bahwa dataset bocor sinyal melalui pengulangan dan prioritas daripada menguji pemahaman berbasis bagian.
Pertanyaan: "Apa yang John makan?"
Baseline ini pada dasarnya adalah pemeriksaan kewarasan: bisakah model masih mendapat nilai bagus dengan mengandalkan template jawaban frekuensi tinggi tanpa sama sekali mendasarkan pada bagian? Dalam praktiknya, ia hanya menebak token yang dataset secara tidak proporsional memberi penghargaan ("pizza," "sandwich"), dan jika itu berhasil lebih sering dari yang seharusnya, Anda tidak mengukur pemahaman sebanyak Anda mengukur prioritas dataset.
Evaluasi penggunaan komputer telah menghasilkan jalan pintas yang lebih harfiah: agen memiliki browser, tolok ukur bersifat publik, dan evaluasi berubah menjadi ujian buku terbuka dengan kunci jawaban di halaman terakhir. Dalam makalah Holistic Agent Leaderboard (HAL), para penulis melaporkan mengamati agen yang mencari tolok ukur di HuggingFace alih-alih menyelesaikan tugas, perilaku yang hanya Anda tangkap jika Anda memeriksa log.
\
# Tugas yang seharusnya: selesaikan alur kerja di dalam lingkungan web Tugas: "Konfigurasikan pengaturan X di aplikasi dan verifikasi bahwa itu diaktifkan." Mode kegagalan: 1) Buka tab baru 2) Cari: "status diaktifkan yang diharapkan tolok ukur X" / "HAL <tolok ukur> pengaturan X" 3) Temukan: repo / tulisan papan peringkat / kartu dataset / thread masalah 4) Reproduksi keadaan akhir yang diharapkan (jawaban)
Pada titik itu, evaluasi mengukur apakah ia dapat menemukan kunci jawaban.
Tugas: "Temukan halaman yang benar dan ekstrak Y." Mode kegagalan: - Cari: "<nama tolok ukur> Y" - Salin dari artefak publik (dokumen, posting forum, kartu dataset) - Tempel nilai ke dalam output agen seolah-olah berasal dari interaksi
Jika agen dapat menarik nilai dari kartu dataset atau repo dan masih "lulus," pemeriksaan keberhasilan menilai kemungkinan, bukan kebenaran interaksi. Tugas publik plus verifikasi dangkal mengubah pencarian web menjadi eksploitasi.
Kedua contoh ini adalah tembakan peringatan: jika kita tidak memegang tolok ukur penggunaan komputer ke standar yang lebih tinggi sejak awal, kita akan mengulangi era LLM hanya dengan UI yang lebih baik dan cara curang yang lebih rumit.
Ya! Bekerja pada lingkungan RL dan infrastruktur RL seputar penggunaan komputer, saya terus-menerus dikelilingi oleh model penggunaan komputer terbaik dan lingkungan pelatihan paling realistis. Jadi saya menulis artikel lain, "Layar Adalah API," yang merupakan kasus untuk penggunaan komputer dan mengapa itu adalah masa depan model AI.
Ruang ini sangat kurang dilaporkan karena dua alasan:
Saya ingin mengubah itu.
Saya biasanya membaca banyak makalah penelitian dan berbicara dengan rekan-rekan saya di industri tentang pemikiran mereka tentang suatu topik. Selain itu, saya menghabiskan banyak waktu membaca artikel oleh blogger hebat seperti PG. Jadi saya biasanya mengambil banyak inspirasi dari orang lain dalam tulisan saya.
Menemukan waktu untuk duduk dan menuangkan pengalaman hidup saya ke dalam kata-kata.
Untuk mengatasi masalah yang lebih sulit dengan orang-orang hebat, untuk belajar dari orang-orang itu, dan berbagi pengalaman saya.
Menonton film! Film favorit saya saat ini adalah Catch Me If You Can (2002).
Saya suka panjat tebing karena membuat saya merasa seperti saya adalah agen penggunaan komputer manusia yang berinteraksi dengan dinding panjat. Saya bercanda. Saya pikir panjat tebing sangat menyenangkan karena memungkinkan saya untuk mengalihkan pikiran dari pekerjaan dan mengkonsolidasikan pemikiran saya.
Saya saat ini sedang menulis artikel lain tentang infrastruktur lingkungan RL!
Saya pikir struktur ulasannya luar biasa, dan itu adalah tempat yang bagus bagi saya untuk menempatkan pemikiran saya di depan pembaca teknis.
Saya suka menulis. Terima kasih, HackerNoon!


