NeMo Data Designer dari NVIDIA memungkinkan developer membangun pipeline data sintetis untuk distilasi AI tanpa masalah lisensi atau dataset besar-besaran. (Baca SelengkapnyaNeMo Data Designer dari NVIDIA memungkinkan developer membangun pipeline data sintetis untuk distilasi AI tanpa masalah lisensi atau dataset besar-besaran. (Baca Selengkapnya

NVIDIA Merilis Alat Open Source untuk Pelatihan Model AI yang Aman Lisensi

durasi baca 3 menit

NVIDIA Merilis Alat Open Source untuk Pelatihan Model AI yang Aman Lisensi

Peter Zhang 05 Feb 2026 18:27

NeMo Data Designer dari NVIDIA memungkinkan pengembang membangun pipeline data sintetis untuk distilasi AI tanpa masalah lisensi atau dataset masif.

NVIDIA Merilis Alat Open Source untuk Pelatihan Model AI yang Aman Lisensi

NVIDIA telah menerbitkan kerangka kerja terperinci untuk membangun pipeline data sintetis yang patuh lisensi, mengatasi salah satu masalah paling rumit dalam pengembangan AI: bagaimana melatih model khusus ketika data dunia nyata langka, sensitif, atau secara hukum tidak jelas.

Pendekatan ini menggabungkan NeMo Data Designer open-source NVIDIA dengan endpoint yang dapat di-distilasi dari OpenRouter untuk menghasilkan dataset pelatihan yang tidak akan memicu mimpi buruk kepatuhan di kemudian hari. Untuk perusahaan yang terjebak dalam purgatori tinjauan hukum atas lisensi data, ini dapat memangkas berminggu-minggu dari siklus pengembangan.

Mengapa Ini Penting Sekarang

Gartner memprediksi data sintetis dapat menaungi data nyata dalam pelatihan AI pada tahun 2030. Itu bukan hiperbola—63% pemimpin AI perusahaan sudah memasukkan data sintetis ke dalam alur kerja mereka, menurut survei industri terbaru. Tim Superintelligence Microsoft mengumumkan pada akhir Januari 2026 bahwa mereka akan menggunakan teknik serupa dengan chip Maia 200 mereka untuk pengembangan model generasi berikutnya.

Masalah inti yang ditangani NVIDIA: sebagian besar model AI yang kuat membawa pembatasan lisensi yang melarang penggunaan output mereka untuk melatih model pesaing. Pipeline baru ini menegakkan kepatuhan "dapat di-distilasi" di tingkat API, yang berarti pengembang tidak secara tidak sengaja meracuni data pelatihan mereka dengan konten yang dibatasi secara hukum.

Apa yang Sebenarnya Dilakukan Pipeline

Alur kerja teknis memecah generasi data sintetis menjadi tiga lapisan. Pertama, kolom sampler menyuntikkan keragaman terkontrol—kategori produk, rentang harga, batasan penamaan—tanpa bergantung pada keacakan LLM. Kedua, kolom yang dihasilkan LLM menghasilkan konten bahasa alami yang dikondisikan pada benih tersebut. Ketiga, evaluasi LLM-sebagai-juri memberi skor output untuk akurasi dan kelengkapan sebelum mereka memasuki set pelatihan.

Contoh NVIDIA menghasilkan pasangan Q&A produk dari katalog benih kecil. Deskripsi sweater mungkin ditandai sebagai "Sebagian Akurat" jika model berhalusinasi bahan yang tidak ada dalam data sumber. Gerbang kualitas itu penting: data sintetis sampah menghasilkan model sampah.

Pipeline berjalan pada Nemotron 3 Nano, model penalaran Mamba MOE hibrida NVIDIA, dialihkan melalui OpenRouter ke DeepInfra. Semuanya tetap deklaratif—skema didefinisikan dalam kode, prompt dibuat template dengan Jinja, output terstruktur melalui model Pydantic.

Implikasi Pasar

Pasar generasi data sintetis mencapai $381 juta pada tahun 2022 dan diproyeksikan mencapai $2,1 miliar pada tahun 2028, tumbuh 33% setiap tahun. Kontrol atas pipeline ini semakin menentukan posisi kompetitif, terutama dalam aplikasi AI fisik seperti robotika dan sistem otonom di mana pengumpulan data pelatihan dunia nyata berharga jutaan.

Untuk pengembang, nilai langsung adalah melewati hambatan tradisional: Anda tidak lagi memerlukan dataset proprietary masif atau tinjauan hukum yang diperpanjang untuk membangun model spesifik domain. Pola yang sama berlaku untuk pencarian perusahaan, bot dukungan, dan alat internal—di mana pun Anda memerlukan AI khusus tanpa anggaran pengumpulan data khusus.

Detail implementasi lengkap dan kode tersedia di repositori GitHub GenerativeAIExamples NVIDIA.

Sumber gambar: Shutterstock
  • nvidia
  • data sintetis
  • pelatihan ai
  • nemo
  • machine learning
Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.