Google dan konsorsium lembaga penelitian Afrika telah meluncurkan dataset WAXAL, sebuah upaya besar baru untuk mengatasi salah satu tantangan utama kecerdasan buatan (AI) di benua tersebut, yaitu ketidakmampuannya untuk menafsirkan dan memahami sebagian besar bahasa Afrika.
Proyek ini menyediakan dataset suara terbuka yang luas yang mencakup 21 bahasa Afrika Sub-Sahara dan membawa teknologi suara kepada lebih dari 100 juta orang yang terkecualikan dari ekonomi AI.
Dataset WAXAL adalah hasil kolaborasi tiga tahun yang didanai oleh Google dan dipimpin oleh universitas lokal dan kelompok komunitas.
Dataset ini mencakup 1.250 jam transkripsi ucapan alami dan lebih dari 20 jam rekaman berkualitas studio yang ditujukan untuk membangun suara sintetis dengan kesetiaan tinggi. Dataset ini menargetkan bahasa seperti Hausa, Yoruba, Luganda, Igbo dan Acholi, yang banyak di antaranya dituturkan oleh puluhan juta orang tetapi sebagian besar masih tidak terlihat oleh sistem ucapan komersial.
Meskipun banyak pembicaraan tentang AI global, teknologi suara masih sangat condong ke bahasa Inggris dan segelintir bahasa Eropa dan Asia. Afrika, yang merupakan rumah bagi lebih dari 2.000 bahasa, telah tertinggal di pinggiran.
Kesenjangan itu bukan hanya akademis; ini membentuk siapa yang dapat menggunakan layanan digital, siapa yang dapat mengakses alat pendidikan dan kesehatan, dan siapa yang dapat membangun perusahaan di atas platform AI modern. Google membingkai pekerjaan ini sebagai langkah untuk mempersempit kesenjangan data yang sudah berlangsung lama yang membuat banyak bahasa Afrika tidak tersedia di asisten suara dan alat lainnya.
Selain mengatasi ketidakseimbangan ini secara langsung, proyek ini sama pentingnya dengan data itu sendiri.
Tidak seperti inisiatif sebelumnya di mana data ucapan Afrika diekstraksi dan dimiliki di tempat lain, WAXAL dipimpin langsung oleh lembaga-lembaga Afrika. Makerere University di Uganda, University of Ghana, dan Digital Umuganda di Rwanda mengawasi pengumpulan data, keterlibatan komunitas, dan pengelolaan bahasa, dengan dukungan teknis dari Google Research Africa.
Yang penting, lembaga-lembaga tersebut mempertahankan kepemilikan data. Ini adalah perubahan yang menonjol dalam bidang yang sering dikritik karena mereproduksi dinamika ekstraktif di bawah panji keterbukaan.
Menurut Aisha Walcott-Bryant, Kepala Google Research Africa, "Dampak akhir dari WAXAL adalah pemberdayaan masyarakat di Afrika. Dataset ini memberikan fondasi penting bagi mahasiswa, peneliti, dan pengusaha untuk membangun teknologi dengan syarat mereka sendiri, dalam bahasa mereka sendiri, akhirnya menjangkau lebih dari 100 juta orang."
"Kami berharap dapat melihat inovator Afrika menggunakan data ini untuk menciptakan segala sesuatu mulai dari alat pendidikan baru hingga layanan berbasis suara yang menciptakan peluang ekonomi nyata di seluruh benua", tambahnya.
Aisha Walcott-Bryant, Kepala Google Research Africa
Kerangka tersebut digaungkan oleh universitas-universitas yang terlibat. Joyce Nakatumba-Nabende, dosen senior di Makerere University, mengatakan:
"Agar AI memiliki dampak nyata di Afrika, AI harus berbicara dalam bahasa kita dan memahami konteks kita. Dataset WAXAL memberikan peneliti kami data berkualitas tinggi yang mereka butuhkan untuk membangun teknologi ucapan yang mencerminkan komunitas unik kami. Di Uganda, ini telah memperkuat kapasitas penelitian lokal kami dan mendukung proyek-proyek baru yang dipimpin oleh mahasiswa dan fakultas."
Di University of Ghana, Profesor Madya Isaac Wiafe menunjukkan skala keterlibatan publik:
"Bagi kami di University of Ghana, dampak WAXAL melampaui data itu sendiri. Ini telah memberdayakan kami untuk membangun sumber daya bahasa kami sendiri dan melatih generasi baru peneliti AI. Lebih dari 7.000 sukarelawan bergabung dengan kami karena mereka ingin suara dan bahasa mereka menjadi bagian dari masa depan digital. Hari ini, upaya kolektif tersebut telah memicu ekosistem inovasi di bidang-bidang seperti kesehatan, pendidikan, dan pertanian. Ini membuktikan bahwa ketika data ada, kemungkinan berkembang di mana-mana."
Ada alasan untuk optimisme yang hati-hati. Dataset ucapan terbuka dapat menurunkan hambatan bagi startup lokal dan peneliti yang kekurangan sumber daya untuk mengumpulkan data dalam skala besar. Dataset ini juga dapat mengurangi ketergantungan pada API asing yang jarang mendukung bahasa Afrika dengan baik, jika ada.
Dataset WAXAL
Namun, dataset tidak menjamin hasil; membangun sistem suara yang andal memerlukan investasi berkelanjutan, penerapan lokal, dan jalur komersial yang menjaga nilai di dalam negeri. Peran Google sebagai penyandang dana dan penyelenggara akan mengundang pengawasan, terutama mengenai bagaimana data WAXAL digunakan oleh perusahaan global di masa depan.
Untuk saat ini, peluncuran dataset WAXAL menandai langkah konkret menuju ekosistem AI yang lebih inklusif secara linguistik. Ini tidak menyelesaikan tantangan AI Afrika, tetapi mengatasi masalah mendasar. Suara seringkali merupakan antarmuka paling alami dengan teknologi. Memastikan AI dapat mendengar Afrika berbicara, dalam segala keragamannya, sudah terlambat.
Postingan Google to train AI in 21 African languages, including Yoruba, Hausa and Igbo pertama kali muncul di Technext.


