Dalam wawancara ini, kami berbincang dengan Ashton, seorang insinyur pendiri di Theta, untuk membahas teknologi terdepan infrastruktur Pembelajaran Penguatan (Reinforcement Learning). Dia menjelaskanDalam wawancara ini, kami berbincang dengan Ashton, seorang insinyur pendiri di Theta, untuk membahas teknologi terdepan infrastruktur Pembelajaran Penguatan (Reinforcement Learning). Dia menjelaskan

Temui Penulis: Ashton Chew, Insinyur Pendiri di Theta

2025/12/15 04:25


Mari mulai! Ceritakan sedikit tentang dirimu. Misalnya, nama, profesi, dan minat pribadi.

Hai! Nama saya Ashton, dan saya adalah insinyur pendiri di Theta di mana saya bekerja pada infrastruktur RL, RL, dan sistem terdistribusi. Saya secara khusus fokus pada penggunaan komputer dan penggunaan alat. Sebelumnya, saya bekerja di Amazon AGI dan menangani infrastruktur inferensi dan penggunaan alat. Di waktu luang, saya suka desain grafis, proyek sampingan, dan panjat tebing.

Menarik! Tentang apa cerita teratas Hackernoon terbaru Anda?

Cerita terbaru saya, "Bisakah AI Anda Benar-benar Menggunakan Komputer? Peta Tolok Ukur Penggunaan Komputer 2025," menyentuh salah satu ruang terpanas di VC saat ini: lingkungan RL dan evaluasi. Saya memberikan gambaran komprehensif tentang tolok ukur penggunaan komputer yang paling banyak digunakan, plus saran praktis tentang cara memilih tolok ukur untuk melatih dan menguji agen penggunaan komputer.

Saya terus menemukan kesenjangan yang sama: tidak banyak artikel yang mengulas tolok ukur itu sendiri. Dan seiring pertumbuhan bidang ini, sangat penting bahwa kita benar-benar menilai kualitas alih-alih memberi penghargaan pada apa pun yang kebetulan mempermainkan metrik. Kita pernah mengalami ini sebelumnya. Pada masa awal LLM, tolok ukur cukup acak dan berbeda sehingga hanya lemah mencerminkan pemenang sebenarnya.

Tolok ukur menjadi papan skor de facto untuk "model terbaik," dan kemudian orang menyadari bahwa banyak dari mereka tidak mengukur apa yang mereka klaim.

Salah satu kegagalan era awal yang paling mengungkapkan adalah ketika "pemahaman bacaan" diam-diam menjadi "pencocokan pola pada struktur dataset." Peneliti menjalankan baseline yang sengaja provokatif (hanya pertanyaan, hanya kalimat terakhir), dan hasilnya cukup tinggi untuk menimbulkan kemungkinan yang tidak nyaman: tolok ukur tidak secara konsisten memaksa model untuk menggunakan seluruh bagian. Dalam kritik 2018, intinya bukan bahwa membaca tidak pernah penting, tetapi bahwa beberapa dataset secara tidak sengaja membuatnya opsional dengan terlalu banyak memberi penghargaan pada jalan pintas seperti kebaruan dan stereotip jawaban sebelumnya.

\

# Tugas yang seharusnya: jawab pertanyaan berdasarkan bagian dan pertanyaan Bagian (ringkasan): - Kalimat 1–8: Hari John di sekolah (sebagian besar detail tidak relevan) - Kalimat 9: "Setelah sekolah, John pergi ke dapur." - Kalimat 10: "Dia makan sepotong pizza sebelum mulai mengerjakan PR-nya." Pertanyaan: "Apa yang John makan?" Jawaban: "pizza"

Tolok ukur secara tidak sengaja memberi penghargaan pada jalan pintas di mana model terlalu memberi bobot pada kalimat terakhir (karena jawaban sering berada di dekat akhir) dan hanya mengekstrak objek langsung dari tindakan terbaru ("makan ___"), yang dalam hal ini menghasilkan "pizza."

Dan kemudian muncul baseline yang lebih merusak: hapus seluruh bagian dan lihat apa yang terjadi. Jika model yang hanya berisi pertanyaan bersaing, itu adalah tanda bahwa dataset bocor sinyal melalui pengulangan dan prioritas daripada menguji pemahaman berbasis bagian.

Pertanyaan: "Apa yang John makan?"

Baseline ini pada dasarnya adalah pemeriksaan kewarasan: bisakah model masih mendapat nilai bagus dengan mengandalkan template jawaban frekuensi tinggi tanpa sama sekali mendasarkan pada bagian? Dalam praktiknya, ia hanya menebak token yang dataset secara tidak proporsional memberi penghargaan ("pizza," "sandwich"), dan jika itu berhasil lebih sering dari yang seharusnya, Anda tidak mengukur pemahaman sebanyak Anda mengukur prioritas dataset.

Evaluasi penggunaan komputer telah menghasilkan jalan pintas yang lebih harfiah: agen memiliki browser, tolok ukur bersifat publik, dan evaluasi berubah menjadi ujian buku terbuka dengan kunci jawaban di halaman terakhir. Dalam makalah Holistic Agent Leaderboard (HAL), para penulis melaporkan mengamati agen yang mencari tolok ukur di HuggingFace alih-alih menyelesaikan tugas, perilaku yang hanya Anda tangkap jika Anda memeriksa log.

\

# Tugas yang seharusnya: selesaikan alur kerja di dalam lingkungan web Tugas: "Konfigurasikan pengaturan X di aplikasi dan verifikasi bahwa itu diaktifkan." Mode kegagalan: 1) Buka tab baru 2) Cari: "status diaktifkan yang diharapkan tolok ukur X" / "HAL <tolok ukur> pengaturan X" 3) Temukan: repo / tulisan papan peringkat / kartu dataset / thread masalah 4) Reproduksi keadaan akhir yang diharapkan (jawaban)

Pada titik itu, evaluasi mengukur apakah ia dapat menemukan kunci jawaban.

Tugas: "Temukan halaman yang benar dan ekstrak Y." Mode kegagalan: - Cari: "<nama tolok ukur> Y" - Salin dari artefak publik (dokumen, posting forum, kartu dataset) - Tempel nilai ke dalam output agen seolah-olah berasal dari interaksi

Jika agen dapat menarik nilai dari kartu dataset atau repo dan masih "lulus," pemeriksaan keberhasilan menilai kemungkinan, bukan kebenaran interaksi. Tugas publik plus verifikasi dangkal mengubah pencarian web menjadi eksploitasi.

Kedua contoh ini adalah tembakan peringatan: jika kita tidak memegang tolok ukur penggunaan komputer ke standar yang lebih tinggi sejak awal, kita akan mengulangi era LLM hanya dengan UI yang lebih baik dan cara curang yang lebih rumit.

Apakah Anda biasanya menulis tentang topik serupa? Jika tidak, tentang apa biasanya Anda menulis?

Ya! Bekerja pada lingkungan RL dan infrastruktur RL seputar penggunaan komputer, saya terus-menerus dikelilingi oleh model penggunaan komputer terbaik dan lingkungan pelatihan paling realistis. Jadi saya menulis artikel lain, "Layar Adalah API," yang merupakan kasus untuk penggunaan komputer dan mengapa itu adalah masa depan model AI.

Ruang ini sangat kurang dilaporkan karena dua alasan:

  1. Model tidak secanggih dalam penggunaan komputer seperti dalam tugas lain (coding, matematika, dll.).
  2. Penggunaan komputer bergerak cepat dan sangat baru.

Saya ingin mengubah itu.

Bagus! Seperti apa rutinitas menulis biasa Anda (jika Anda memilikinya)

Saya biasanya membaca banyak makalah penelitian dan berbicara dengan rekan-rekan saya di industri tentang pemikiran mereka tentang suatu topik. Selain itu, saya menghabiskan banyak waktu membaca artikel oleh blogger hebat seperti PG. Jadi saya biasanya mengambil banyak inspirasi dari orang lain dalam tulisan saya.

Menjadi penulis di bidang teknologi bisa menjadi tantangan. Itu sering bukan peran utama kita, tetapi tambahan untuk yang lain. Apa tantangan terbesar yang Anda hadapi ketika datang ke menulis?

Menemukan waktu untuk duduk dan menuangkan pengalaman hidup saya ke dalam kata-kata.

Apa hal berikutnya yang Anda harapkan untuk dicapai dalam karier Anda?

Untuk mengatasi masalah yang lebih sulit dengan orang-orang hebat, untuk belajar dari orang-orang itu, dan berbagi pengalaman saya.

Wow, itu mengagumkan. Sekarang, sesuatu yang lebih santai: Apa kesenangan bersalah pilihan Anda?

Menonton film! Film favorit saya saat ini adalah Catch Me If You Can (2002).

Apakah Anda memiliki hobi yang tidak terkait dengan teknologi? Jika ya, apa itu?

Saya suka panjat tebing karena membuat saya merasa seperti saya adalah agen penggunaan komputer manusia yang berinteraksi dengan dinding panjat. Saya bercanda. Saya pikir panjat tebing sangat menyenangkan karena memungkinkan saya untuk mengalihkan pikiran dari pekerjaan dan mengkonsolidasikan pemikiran saya.

Apa yang dapat diharapkan komunitas Hacker Noon untuk dibaca dari Anda selanjutnya?

Saya saat ini sedang menulis artikel lain tentang infrastruktur lingkungan RL!

Apa pendapat Anda tentang HackerNoon sebagai platform untuk penulis?

Saya pikir struktur ulasannya luar biasa, dan itu adalah tempat yang bagus bagi saya untuk menempatkan pemikiran saya di depan pembaca teknis.

Terima kasih telah meluangkan waktu untuk bergabung dengan seri "Meet the writer" kami. Itu menyenangkan. Apakah Anda memiliki kata penutup?

Saya suka menulis. Terima kasih, HackerNoon!

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.