Beli Kripto Pasar Spot Futures OILMU Tabungan Pusat Acara Hub Hadiah

Lainnya

Dalam wawancara ini, kami berbincang dengan Ashton, seorang insinyur pendiri di Theta, untuk membahas teknologi terdepan infrastruktur Pembelajaran Penguatan (Reinforcement Learning). Dia menjelaskanDalam wawancara ini, kami berbincang dengan Ashton, seorang insinyur pendiri di Theta, untuk membahas teknologi terdepan infrastruktur Pembelajaran Penguatan (Reinforcement Learning). Dia menjelaskan

Temui Penulis: Ashton Chew, Insinyur Pendiri di Theta

Sumber: Hackernoon

2025/12/15 04:25

durasi baca 6 menit

Untuk memberikan masukan atau menyampaikan kekhawatiran terkait konten ini, silakan hubungi kami di [email protected]

Mari mulai! Ceritakan sedikit tentang dirimu. Misalnya, nama, profesi, dan minat pribadi.

Hai! Nama saya Ashton, dan saya adalah insinyur pendiri di Theta di mana saya bekerja pada infrastruktur RL, RL, dan sistem terdistribusi. Saya secara khusus fokus pada penggunaan komputer dan penggunaan alat. Sebelumnya, saya bekerja di Amazon AGI dan menangani infrastruktur inferensi dan penggunaan alat. Di waktu luang, saya suka desain grafis, proyek sampingan, dan panjat tebing.

Menarik! Tentang apa cerita teratas Hackernoon terbaru Anda?

Cerita terbaru saya, "Bisakah AI Anda Benar-benar Menggunakan Komputer? Peta Tolok Ukur Penggunaan Komputer 2025," menyentuh salah satu ruang terpanas di VC saat ini: lingkungan RL dan evaluasi. Saya memberikan gambaran komprehensif tentang tolok ukur penggunaan komputer yang paling banyak digunakan, plus saran praktis tentang cara memilih tolok ukur untuk melatih dan menguji agen penggunaan komputer.

Saya terus menemukan kesenjangan yang sama: tidak banyak artikel yang mengulas tolok ukur itu sendiri. Dan seiring pertumbuhan bidang ini, sangat penting bahwa kita benar-benar menilai kualitas alih-alih memberi penghargaan pada apa pun yang kebetulan mempermainkan metrik. Kita pernah mengalami ini sebelumnya. Pada masa awal LLM, tolok ukur cukup acak dan berbeda sehingga hanya lemah mencerminkan pemenang sebenarnya.

Tolok ukur menjadi papan skor de facto untuk "model terbaik," dan kemudian orang menyadari bahwa banyak dari mereka tidak mengukur apa yang mereka klaim.

Salah satu kegagalan era awal yang paling mengungkapkan adalah ketika "pemahaman bacaan" diam-diam menjadi "pencocokan pola pada struktur dataset." Peneliti menjalankan baseline yang sengaja provokatif (hanya pertanyaan, hanya kalimat terakhir), dan hasilnya cukup tinggi untuk menimbulkan kemungkinan yang tidak nyaman: tolok ukur tidak secara konsisten memaksa model untuk menggunakan seluruh bagian. Dalam kritik 2018, intinya bukan bahwa membaca tidak pernah penting, tetapi bahwa beberapa dataset secara tidak sengaja membuatnya opsional dengan terlalu banyak memberi penghargaan pada jalan pintas seperti kebaruan dan stereotip jawaban sebelumnya.

# Tugas yang seharusnya: jawab pertanyaan berdasarkan bagian dan pertanyaan Bagian (ringkasan): - Kalimat 1–8: Hari John di sekolah (sebagian besar detail tidak relevan) - Kalimat 9: "Setelah sekolah, John pergi ke dapur." - Kalimat 10: "Dia makan sepotong pizza sebelum mulai mengerjakan PR-nya." Pertanyaan: "Apa yang John makan?" Jawaban: "pizza"

Tolok ukur secara tidak sengaja memberi penghargaan pada jalan pintas di mana model terlalu memberi bobot pada kalimat terakhir (karena jawaban sering berada di dekat akhir) dan hanya mengekstrak objek langsung dari tindakan terbaru ("makan ___"), yang dalam hal ini menghasilkan "pizza."

Dan kemudian muncul baseline yang lebih merusak: hapus seluruh bagian dan lihat apa yang terjadi. Jika model yang hanya berisi pertanyaan bersaing, itu adalah tanda bahwa dataset bocor sinyal melalui pengulangan dan prioritas daripada menguji pemahaman berbasis bagian.

Pertanyaan: "Apa yang John makan?"

Baseline ini pada dasarnya adalah pemeriksaan kewarasan: bisakah model masih mendapat nilai bagus dengan mengandalkan template jawaban frekuensi tinggi tanpa sama sekali mendasarkan pada bagian? Dalam praktiknya, ia hanya menebak token yang dataset secara tidak proporsional memberi penghargaan ("pizza," "sandwich"), dan jika itu berhasil lebih sering dari yang seharusnya, Anda tidak mengukur pemahaman sebanyak Anda mengukur prioritas dataset.

Evaluasi penggunaan komputer telah menghasilkan jalan pintas yang lebih harfiah: agen memiliki browser, tolok ukur bersifat publik, dan evaluasi berubah menjadi ujian buku terbuka dengan kunci jawaban di halaman terakhir. Dalam makalah Holistic Agent Leaderboard (HAL), para penulis melaporkan mengamati agen yang mencari tolok ukur di HuggingFace alih-alih menyelesaikan tugas, perilaku yang hanya Anda tangkap jika Anda memeriksa log.

# Tugas yang seharusnya: selesaikan alur kerja di dalam lingkungan web Tugas: "Konfigurasikan pengaturan X di aplikasi dan verifikasi bahwa itu diaktifkan." Mode kegagalan: 1) Buka tab baru 2) Cari: "status diaktifkan yang diharapkan tolok ukur X" / "HAL <tolok ukur> pengaturan X" 3) Temukan: repo / tulisan papan peringkat / kartu dataset / thread masalah 4) Reproduksi keadaan akhir yang diharapkan (jawaban)

Pada titik itu, evaluasi mengukur apakah ia dapat menemukan kunci jawaban.

Tugas: "Temukan halaman yang benar dan ekstrak Y." Mode kegagalan: - Cari: "<nama tolok ukur> Y" - Salin dari artefak publik (dokumen, posting forum, kartu dataset) - Tempel nilai ke dalam output agen seolah-olah berasal dari interaksi

Jika agen dapat menarik nilai dari kartu dataset atau repo dan masih "lulus," pemeriksaan keberhasilan menilai kemungkinan, bukan kebenaran interaksi. Tugas publik plus verifikasi dangkal mengubah pencarian web menjadi eksploitasi.

Kedua contoh ini adalah tembakan peringatan: jika kita tidak memegang tolok ukur penggunaan komputer ke standar yang lebih tinggi sejak awal, kita akan mengulangi era LLM hanya dengan UI yang lebih baik dan cara curang yang lebih rumit.

Apakah Anda biasanya menulis tentang topik serupa? Jika tidak, tentang apa biasanya Anda menulis?

Ya! Bekerja pada lingkungan RL dan infrastruktur RL seputar penggunaan komputer, saya terus-menerus dikelilingi oleh model penggunaan komputer terbaik dan lingkungan pelatihan paling realistis. Jadi saya menulis artikel lain, "Layar Adalah API," yang merupakan kasus untuk penggunaan komputer dan mengapa itu adalah masa depan model AI.

Ruang ini sangat kurang dilaporkan karena dua alasan:

Model tidak secanggih dalam penggunaan komputer seperti dalam tugas lain (coding, matematika, dll.).
Penggunaan komputer bergerak cepat dan sangat baru.

Saya ingin mengubah itu.

Bagus! Seperti apa rutinitas menulis biasa Anda (jika Anda memilikinya)

Saya biasanya membaca banyak makalah penelitian dan berbicara dengan rekan-rekan saya di industri tentang pemikiran mereka tentang suatu topik. Selain itu, saya menghabiskan banyak waktu membaca artikel oleh blogger hebat seperti PG. Jadi saya biasanya mengambil banyak inspirasi dari orang lain dalam tulisan saya.

Menjadi penulis di bidang teknologi bisa menjadi tantangan. Itu sering bukan peran utama kita, tetapi tambahan untuk yang lain. Apa tantangan terbesar yang Anda hadapi ketika datang ke menulis?

Menemukan waktu untuk duduk dan menuangkan pengalaman hidup saya ke dalam kata-kata.

Apa hal berikutnya yang Anda harapkan untuk dicapai dalam karier Anda?

Untuk mengatasi masalah yang lebih sulit dengan orang-orang hebat, untuk belajar dari orang-orang itu, dan berbagi pengalaman saya.

Wow, itu mengagumkan. Sekarang, sesuatu yang lebih santai: Apa kesenangan bersalah pilihan Anda?

Menonton film! Film favorit saya saat ini adalah Catch Me If You Can (2002).

Apakah Anda memiliki hobi yang tidak terkait dengan teknologi? Jika ya, apa itu?

Saya suka panjat tebing karena membuat saya merasa seperti saya adalah agen penggunaan komputer manusia yang berinteraksi dengan dinding panjat. Saya bercanda. Saya pikir panjat tebing sangat menyenangkan karena memungkinkan saya untuk mengalihkan pikiran dari pekerjaan dan mengkonsolidasikan pemikiran saya.

Apa yang dapat diharapkan komunitas Hacker Noon untuk dibaca dari Anda selanjutnya?

Saya saat ini sedang menulis artikel lain tentang infrastruktur lingkungan RL!

Apa pendapat Anda tentang HackerNoon sebagai platform untuk penulis?

Saya pikir struktur ulasannya luar biasa, dan itu adalah tempat yang bagus bagi saya untuk menempatkan pemikiran saya di depan pembaca teknis.

Terima kasih telah meluangkan waktu untuk bergabung dengan seri "Meet the writer" kami. Itu menyenangkan. Apakah Anda memiliki kata penutup?

Saya suka menulis. Terima kasih, HackerNoon!

Peluang Pasar

Harga Edge(EDGE1)

$0,06519

$0,06519$0,06519

+0,19%

USD

Grafik Harga Live Edge (EDGE1)

Berlindung, Berbagi 1 Juta USDT

Tingkat VVIP tinggi, peluang kompensasi yang tinggi.

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.

Anda Mungkin Juga Menyukai

Bukan celah hukum: Kontrol ekspor AI Singapura memungkinkan Tiongkok mengakses AI AS secara legal

Teknologi AI Amerika mencapai raksasa teknologi Tiongkok melalui jalur yang tidak pernah dirancang untuk ditutup oleh kontrol ekspor AS: Singapura. Negara kota ini berada di luar

The Cryptonomist2026/07/10 14:46

Futures Perpetual Bitcoin: Rasio Long/Short di Bursa Teratas

BitcoinWorld Futures Perpetual Bitcoin: Rasio Long/Short di Bursa Teratas Para pedagang futures perpetual Bitcoin menunjukkan bias bullish yang moderat, menurut

bitcoinworld2026/07/10 14:10

Ekosistem Token LAB: Panduan Platform Perdagangan Multi-Rantai & Imbalan

Apa Itu Ekosistem LAB? Keterlibatan Komunitas dan Hadiah Dalam bisnis perdagangan cryptocurrency, segala sesuatu berkembang dengan cepat, dan orang-orang kini memiliki tuntutan

Coingabbar2026/07/10 14:11

Complete KYC, Earn 3 USDT

Share $10K in rewards, including Nvidia & Micron.

Berita yang Sedang Tren

Lainnya

Pembaruan Pagi NordFX — 10 Juli 2026

Neraca Perdagangan Jerman Melonjak ke €19,1 Miliar pada Mei, Secara Nyaman Melampaui Prakiraan

Arbitrum Mengumumkan Sepuluh Tim Inovatif — Dan Mengapa Ini Bukan Sekadar Hype

ARK Invest milik Cathie Wood Membeli Saham Circle Senilai $13,7 Juta Sambil Menjual Saham Robinhood

Wajah perawatan lansia yang berubah di Malaysia — Sayed Mohammad Reza Yamani Sayed Umar

Berita Live 24/7

Lainnya

Total posisi terbuka Hyperliquid mencapai rekor tertinggi baru, menandakan peningkatan aktivitas pasar

Penulis: DEGEN NEWS07:14

Undang-Undang CLARITY siap untuk pemungutan suara di Senat dengan hasil yang tidak pasti, berdampak pada lanskap regulasi XRP

Penulis: Ripple Bull Winkle | Crypto Researcher 🚀🚨07:01

Trump menyatakan AS memimpin Tiongkok dalam AI dan kripto, menyebutkan Bitcoin

Penulis: Rockerfeller03:07

Phantom mengintegrasikan rantai Robinhood Crypto, memperluas interoperabilitas dan utilitas ekosistem SOL

Penulis: DEGEN NEWS02:10

Sui meluncurkan testnet Hashi yang memungkinkan penggunaan Bitcoin secara native tanpa perlu bridging keluar jaringan

Penulis: BlockNews00:55

Bacaan Cepat

Lainnya

Harga Kripto

Bitcoin

BTC

$64 923,59

$64 923,59$64 923,59

-0,06%

Ethereum

ETH

$1 874,10

$1 874,10$1 874,10

-1,11%

USDCoin

USDC

$1,00067

$1,00067$1,00067

0,00%

Solana

SOL

$75,74

$75,74$75,74

-0,83%

XRP

$1,1063

$1,1063$1,1063

-0,56%

Rekor Iklan, Saham Turun 7%

29 Juli: Keuangan Meta menghadapi pertanyaan pasar.

Temui Penulis: Ashton Chew, Insinyur Pendiri di Theta

Mari mulai! Ceritakan sedikit tentang dirimu. Misalnya, nama, profesi, dan minat pribadi.

Menarik! Tentang apa cerita teratas Hackernoon terbaru Anda?

Apakah Anda biasanya menulis tentang topik serupa? Jika tidak, tentang apa biasanya Anda menulis?

Bagus! Seperti apa rutinitas menulis biasa Anda (jika Anda memilikinya)

Menjadi penulis di bidang teknologi bisa menjadi tantangan. Itu sering bukan peran utama kita, tetapi tambahan untuk yang lain. Apa tantangan terbesar yang Anda hadapi ketika datang ke menulis?

Apa hal berikutnya yang Anda harapkan untuk dicapai dalam karier Anda?

Wow, itu mengagumkan. Sekarang, sesuatu yang lebih santai: Apa kesenangan bersalah pilihan Anda?

Apakah Anda memiliki hobi yang tidak terkait dengan teknologi? Jika ya, apa itu?

Apa yang dapat diharapkan komunitas Hacker Noon untuk dibaca dari Anda selanjutnya?

Apa pendapat Anda tentang HackerNoon sebagai platform untuk penulis?

Terima kasih telah meluangkan waktu untuk bergabung dengan seri "Meet the writer" kami. Itu menyenangkan. Apakah Anda memiliki kata penutup?

Anda Mungkin Juga Menyukai

Bukan celah hukum: Kontrol ekspor AI Singapura memungkinkan Tiongkok mengakses AI AS secara legal

Futures Perpetual Bitcoin: Rasio Long/Short di Bursa Teratas

Ekosistem Token LAB: Panduan Platform Perdagangan Multi-Rantai & Imbalan

Berita yang Sedang Tren

Pembaruan Pagi NordFX — 10 Juli 2026

Neraca Perdagangan Jerman Melonjak ke €19,1 Miliar pada Mei, Secara Nyaman Melampaui Prakiraan

Arbitrum Mengumumkan Sepuluh Tim Inovatif — Dan Mengapa Ini Bukan Sekadar Hype

ARK Invest milik Cathie Wood Membeli Saham Circle Senilai $13,7 Juta Sambil Menjual Saham Robinhood

Wajah perawatan lansia yang berubah di Malaysia — Sayed Mohammad Reza Yamani Sayed Umar

Berita Live 24/7

Bacaan Cepat

BitMEX vs MEXC Membandingkan Dua Model Pertukaran saat BitMEX Bersiap Menutup

Alternatif BitMEX Terbaik di 2026 Di mana Pedagang Derivatif Bergerak Setelah Shutdown

Mengapa Pertukaran Crypto Menutup Pelajaran Dari BitMEX FTX dan Quadriga

Cara Memindahkan Aset Anda Setelah BitMEX Shuts Down

BitMEX Shutdown Apa yang Terjadi dan Apa yang Harus Dilakukan Pengguna Selanjutnya

Harga Kripto