Dalam dekade terakhir, kecerdasan buatan telah berkembang dengan terutama mengonsumsi sumber daya yang sama: data web publik. Teks, gambar, dokumen, forum, berita, blog, repositori... sejumlah besar materi yang telah diserap oleh model untuk membangun kemampuan bahasa dan kognitif mereka. Tetapi fase ini akan segera berakhir.
Menurut proyeksi yang dikutip oleh Messari, jumlah total teks publik yang tersedia untuk pelatihan model—sekitar 300 triliun token—bisa sepenuhnya habis antara tahun 2026 dan 2032. Ini berarti model-model besar telah "memakan internet," dan sekarang mereka membutuhkan sesuatu yang lain. Perbatasan berikutnya untuk AI tidak lagi akan menjadi web: melainkan dunia nyata.
Dan di sinilah konsep data perbatasan mulai berperan, sumber daya yang akan menentukan daya saing model masa depan. Video, audio, data sensorik, motorik, robotik, data tindakan, data yang dihasilkan dari interaksi dengan dunia fisik atau antarmuka digital yang kompleks. Data yang tidak bisa hanya diunduh: mereka harus dikumpulkan, dikoordinasikan, diverifikasi, dan, yang terpenting, diberi insentif.
Untuk alasan ini, blockchain bukanlah detail atau tambahan marjinal: ini adalah infrastruktur yang memungkinkan orkestrasi ekonomi data baru ini.
Model-model paling canggih tahun 2025—tidak hanya linguistik tetapi juga multimodal, agentic, dan berorientasi penalaran—tidak lagi meningkat dengan hanya menambahkan dataset tekstual generik. Mereka membutuhkan sesuatu yang jauh lebih spesifik dan jauh lebih mahal untuk dikumpulkan: data yang mencerminkan tindakan, niat, gerakan, interaksi, manipulasi, konteks.
Ini adalah kasus, misalnya, dengan agen penggunaan komputer, AI yang mampu berinteraksi langsung dengan komputer seperti manusia. Untuk melatih sistem ini, deskripsi tekstual tidak cukup: diperlukan "trajektori", yaitu rekaman aktual orang yang melakukan tugas di layar.
Protokol seperti Chakra, yang disebutkan dalam laporan, telah mengembangkan ekstensi yang memungkinkan pengguna merekam layar mereka saat melakukan tugas sehari-hari: menavigasi sistem manajemen, menyiapkan dokumen Excel, mengedit gambar, menggunakan perangkat lunak profesional. Rekaman ini menjadi materi yang sangat berharga untuk melatih model seperti GLADOS-1, model penggunaan komputer pertama yang hampir seluruhnya dibangun dari data crowdsourced.
Dan inilah tepatnya intinya: data ini tidak ada sampai seseorang memproduksinya. Dan mereka harus dibayar. Sama seperti energi atau inferensi yang dibayar.
Contoh mencolok lainnya berasal dari dunia game. Platform seperti Shaga, yang lahir sebagai jaringan cloud gaming terdesentralisasi, menghasilkan produk sampingan yang sangat berharga: yang disebut Gameplay-Action Pairs (GAP), yaitu pasangan yang disinkronkan antara apa yang terjadi di layar dan perintah yang dikeluarkan pemain.
Ini adalah data yang tidak dapat diambil hanya dengan menonton video di YouTube: mereka perlu ditangkap di sumbernya, di perangkat pemain. Dan jenis dataset ini, menurut perkiraan yang dilaporkan oleh Messari, bisa bernilai hingga $50–$100 per jam gameplay.
Untuk memberikan konteks: Shaga telah mengumpulkan lebih dari 259.000 jam gameplay, dengan nilai perkiraan lebih dari 26 juta dolar. Dan bukan kebetulan bahwa OpenAI, setahun sebelumnya, menawarkan setengah miliar untuk mengakuisisi Medal, platform serupa yang khusus dalam perekaman gameplay.
Data ini digunakan untuk melatih model dunia, model yang tidak hanya menafsirkan bahasa tetapi mensimulasikan fisika, kausalitas, dan interaksi agen-lingkungan. Inilah model yang akan memungkinkan robot yang lebih cerdas, agen otonom, sistem peramalan canggih, dan AI yang mampu "bergerak" di lingkungan yang kompleks.
Dan di sinilah tepatnya kita tiba pada gelombang besar kedua data perbatasan: data robotik.
AI masa depan tidak hanya akan berada di pusat data. Ia akan hidup di robot, drone, mobil otonom, sensor terdistribusi, dan perangkat rumah pintar. Setiap robot akan membutuhkan data untuk belajar bagaimana bergerak, mengidentifikasi objek, membuat keputusan, dan memanipulasi lingkungan. Dan pengumpulan data ini sangat mahal: membutuhkan perangkat keras fisik, operator manusia untuk teleoperasi, pemeliharaan berkelanjutan, dan koordinasi.
Proyek seperti PrismaX, BitRobot, GEODNET, dan NATIX mulai menggunakan mekanisme insentif khas Web3 untuk mendistribusikan biaya ini di seluruh jaringan global kontributor. Alih-alih memiliki satu perusahaan yang mengumpulkan data robotik, ribuan pengguna dapat melakukannya secara terkoordinasi, menerima kompensasi langsung.
Ini adalah logika yang sama seperti penambangan: tetapi alih-alih daya komputasi, di sini kontribusinya adalah data nyata.
Jika robot dan agen AI benar-benar mulai berinteraksi dengan dunia fisik, diperlukan tingkat koordinasi yang benar-benar baru. Robot akan perlu:
Di sinilah inisiatif seperti OpenMind dan Peaq muncul, berusaha membangun infrastruktur onchain yang didedikasikan untuk komunikasi dan identitas robot. Setara dengan DNS, tetapi untuk mesin. Sistem di mana drone, mobil otonom, lengan robot, atau sistem industri dapat menandakan kehadiran mereka, menyertifikasi tindakan mereka, membayar sistem lain, dan bertukar layanan.
Ini adalah awal dari ekonomi mesin, ekonomi yang dihuni oleh entitas non-manusia yang berinteraksi secara otonom di jaringan terdesentralisasi.
Laporan tersebut juga menempatkan fokus signifikan pada IoTeX, protokol yang dalam beberapa tahun terakhir telah mengubah infrastrukturnya menjadi platform komprehensif untuk pengumpulan, sertifikasi, dan orkestrasi data dunia nyata.
IoTeX memungkinkan koneksi sensor, perangkat IoT, sistem rumah, dan peralatan industri, menyediakan:
Saat ini, IoTeX mengkoordinasikan lebih dari 16.000 perangkat dan puluhan proyek vertikal, memberikan agen AI kemampuan untuk mengakses data terverifikasi dari dunia nyata. Perbedaan signifikan dibandingkan dengan scraping sederhana.
Menurut Messari, trajektorinya jelas: data menjadi aset finansial dalam segala hal. Sama seperti hari ini seseorang dapat berinvestasi dalam komputasi, GPU, dan kolokasi, di masa depan akan mungkin untuk berinvestasi dalam "aliran data," membeli hak penggunaan, mendukung jaringan yang mengumpulkan data perbatasan, dan sebagai imbalannya, menerima pengembalian ekonomi.
Ini adalah evolusi yang hampir tak terelakkan: jika data menjadi langka, berharga, dan sulit diproduksi, maka akan ada pasar, harga, permintaan, dan penawaran.
Blockchain, sekali lagi, adalah lapisan ideal untuk:
AI tidak akan maju melalui model yang semakin besar, tetapi melalui data yang lebih kaya, yang bersumber dari dunia nyata dan dikumpulkan melalui jaringan global kontributor. Ini adalah demam emas terbesar dekade berikutnya: bukan chip, tetapi data.
Protokol Web3 bukanlah sekadar detail: mereka adalah platform alami untuk mengumpulkan, memverifikasi, mendistribusikan, dan memberi kompensasi kepada mereka yang menyediakan data ini. Jika web adalah bahan baku gelombang AI pertama, dunia nyata akan menjadi bahan baku yang kedua.
Dan kali ini, untuk pertama kalinya, pengumpulan tidak akan dikendalikan oleh beberapa raksasa, tetapi oleh jaringan.
Jaringan terbuka, berinsentif, terdesentralisasi: infrastruktur baru data perbatasan.


