Selama dua tahun terakhir, pemilik hak cipta telah mengajukan puluhan gugatan terhadap perusahaan AI, dengan argumen bahwa karya mereka diambil dan dimasukkan ke dalam model tanpa izin. Hingga akhir 2025, setidaknya 63 kasus hak cipta telah diajukan terhadap pengembang AI di A.S. saja, dengan lebih banyak lagi di luar negeri. Beberapa gugatan tersebut berkaitan dengan teks. [...] Artikel AI's New Bottleneck: Licensed Visual Data pertama kali muncul di TechBullion.Selama dua tahun terakhir, pemilik hak cipta telah mengajukan puluhan gugatan terhadap perusahaan AI, dengan argumen bahwa karya mereka diambil dan dimasukkan ke dalam model tanpa izin. Hingga akhir 2025, setidaknya 63 kasus hak cipta telah diajukan terhadap pengembang AI di A.S. saja, dengan lebih banyak lagi di luar negeri. Beberapa gugatan tersebut berkaitan dengan teks. [...] Artikel AI's New Bottleneck: Licensed Visual Data pertama kali muncul di TechBullion.

Hambatan Baru AI: Data Visual Berlisensi

Selama dua tahun terakhir, pemilik hak cipta telah mengajukan puluhan gugatan terhadap perusahaan AI, dengan argumen bahwa karya mereka diambil dan dimasukkan ke dalam model tanpa izin. Hingga akhir 2025, setidaknya 63 kasus hak cipta telah diajukan terhadap pengembang AI di AS saja, dengan lebih banyak lagi di luar negeri. 

Beberapa gugatan tersebut berkisar pada teks. Semakin lama, mereka berpusat pada gambar dan video. Pelajaran penting bagi perusahaan: data visual yang diambil tanpa izin tidak lagi menjadi dasar yang aman untuk produk komersial.

Hambatan data visual berlisensi

Model visi canggih membutuhkan tiga hal sekaligus: konten spesifik, keberagaman, dan kejelasan hukum. Saat ini, sebagian besar dataset kehilangan setidaknya satu dari hal tersebut.

Gambar web yang diambil tanpa izin bersifat luas tetapi berantakan dan berisiko. Arsip stok lama bersih tetapi sering condong ke arah pengaturan Barat, komersial, dan studio. Pemotretan khusus akurat tetapi lambat dan mahal. 

Kesepakatan lisensi kini menjadi pusat dari banyak kemitraan profil tinggi. Perjanjian multi-tahun Getty Images dengan Perplexity, misalnya, memberikan akses kepada startup tersebut ke visual kreatif dan editorial Getty untuk pencarian AI, dengan atribusi dan kompensasi.

Kelangkaan konten spesifik

Pengembang dapat menemukan banyak gambar gaya hidup generik. Masalah dimulai ketika mereka membutuhkan skenario khusus atau langka.

Pikirkan tentang:

  • Kesalahan industri pada mesin tertentu
  • Infrastruktur dan layanan publik khusus wilayah
  • Pengaturan budaya dan agama yang jarang muncul di arsip stok Barat
  • Kasus pinggiran dalam konteks keselamatan, aksesibilitas, atau disabilitas

Ketika adegan-adegan tersebut tidak ada dalam skala besar, model berhalusinasi atau gagal. Model yang dilatih dengan data tersebut mengembangkan pandangan yang miring tentang kebenaran. Mereka berkinerja buruk ketika berkaitan dengan orang dan tempat yang hampir tidak ada dalam data, dan mereka menghasilkan visual yang terasa aneh, atau bahkan menyinggung, bagi siapa pun di luar kerangka dominan. 

Kualitas data dan metadata yang hilang

Bahkan ketika tim memiliki hak, file itu sendiri sering tidak siap untuk pelatihan. Gambar tiba dengan tag yang tidak lengkap, kategori yang tidak konsisten, atau tanpa label sama sekali. Konteks penting hilang, dan ini membuat insinyur harus menebak atau melabeli ulang secara manual.

Bagaimana industri merespons

Di bawah tekanan dari kinerja dan regulasi, sektor ini mengarah pada tiga respons utama. 

  1. Platform lisensi sebagai infrastruktur data

Untuk menggantikan gambar web yang diambil tanpa izin, tim AI semakin banyak membeli akses ke arsip berlisensi. Perusahaan konten besar kini menjual paket gambar dan video siap latih dengan hak dan metadata yang jelas, alih-alih membiarkan pelanggan merekayasa balik persetujuan setelah fakta.

Di samping para pemain lama, platform yang lebih baru dibangun langsung di sekitar kasus penggunaan pelatihan AI. Wirestock mengumpulkan konten kreator, menangani lisensi, dan memasok dataset visual di bawah ketentuan pelatihan AI yang eksplisit (pelajari lebih lanjut tentang wirestock di sini).

Bagi kreator, pekerjaan ini tampak kurang sebagai stok "unggah dan berharap" dan lebih sebagai proyek yang terdefinisi. Melalui pekerjaan fotografi freelance AI, kreator menerima pengarahan dan dibayar untuk set yang diterima yang masuk ke pelatihan.

Data sintetis untuk mengisi kesenjangan

Di mana gambar dunia nyata sulit dikumpulkan, tim beralih ke data sintetis. Mereka menggunakan alat simulasi, pipeline 3D, atau model generatif untuk menghasilkan visual khusus tugas, kemudian mencampurnya dengan konten berlisensi yang nyata.

Dataset sintetis dapat mencakup kasus pinggiran dan menyeimbangkan distribusi, tetapi mereka masih bergantung pada citra nyata sebagai titik referensi. Tanpa jangkar itu, model berisiko belajar dari loop tertutup dari output mereka sendiri.

Regulasi yang menuntut transparansi

Pembuat undang-undang mulai menuntut visibilitas ke dalam sumber pelatihan. AB-2013 California, misalnya, akan mengharuskan banyak pengembang AI generatif yang melayani negara bagian tersebut untuk mengungkapkan jenis data apa yang mereka gunakan dan dari mana asalnya.

Data pelatihan tidak lagi dapat berada dalam bucket tanpa nama; harus didokumentasikan dengan cukup baik sehingga regulator, pelanggan, dan kreator dapat melihat bagaimana data tersebut disusun.

Apa artinya ini bagi pembangun AI

Folder gambar yang diambil tanpa izin dan anonim kini menjadi kewajiban. Mereka memperlambat tim, menarik pengawasan hukum, dan membuat setiap percakapan produk baru lebih sulit dari yang seharusnya.

Pola yang lebih aman adalah melatih pada data visual yang dapat Anda jelaskan. Seseorang di tim Anda harus dapat mengatakan, dalam satu kalimat, apa yang terkandung dalam dataset, dari mana asalnya, dan apa yang diizinkan oleh lisensi. Jika itu tidak mungkin, model tersebut berada dalam waktu pinjaman.

Buat daftar singkat model yang penting untuk pendapatan atau reputasi, dan dokumentasikan sumber pelatihan utama mereka. Perlakukan apa pun yang diambil tanpa izin atau tidak terdokumentasi sebagai "dalam peninjauan," kemudian mulai mengganti set tersebut dengan data berlisensi atau yang ditugaskan. 

FAQ

Kami bukan lab AI besar. Apakah kami benar-benar perlu khawatir tentang ini sekarang?

Jika Anda mengirimkan fitur AI kepada pelanggan, ya. Pembeli perusahaan, regulator, dan mitra mulai bertanya dari mana data pelatihan berasal, terlepas dari ukuran perusahaan. 

Apa langkah pertama yang realistis untuk mengurangi risiko data visual kami?

Mulailah dengan spreadsheet. Daftar model kunci Anda, dataset yang Anda gunakan, dan bagaimana dataset tersebut diperoleh: arsip berlisensi, konten internal, pengambilan publik, atau "tidak yakin." Dari sana, pilih satu atau dua model dampak tinggi dan mulai mencari dataset berlisensi untuk penggantian.

Bisakah data sintetis menyelesaikan masalah ini dengan sendirinya?

Tidak. Gambar sintetis membantu dengan cakupan dan skenario langka, tetapi mereka masih membutuhkan citra berlisensi nyata sebagai referensi. Tanpa jangkar itu, model berisiko hanyut ke dalam loop tertutup dari output mereka sendiri dan gagal pada adegan nyata.

Baca Lebih Banyak Dari Techbullion

Komentar
Peluang Pasar
Logo Sleepless AI
Harga Sleepless AI(AI)
$0,04238
$0,04238$0,04238
+%0,92
USD
Grafik Harga Live Sleepless AI (AI)
Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.