Ketika Abdoulaye Diack, manajer program di Google Research, sebuah divisi Google yang didedikasikan untuk memajukan teknologi terkini dalam ilmu komputer dan menerapkan terobosan tersebut pada masalah dunia nyata, berbicara tentang asal-usul WAXAL, sebuah dataset ucapan sumber terbuka dari Google Research Africa, ia memulai dengan satu kata.
"WAXAL berarti 'berbicara,'" katanya kepada TechCabal, mencatat akarnya dalam bahasa Wolof, bahasa yang banyak digunakan di wilayah Senegambia.
Nama tersebut, dipilih pada tahun 2020 oleh pemimpin penelitian asal Senegal di Google, Moustaph Cisse, mencerminkan kebenaran yang lebih besar tentang trajektori AI Afrika: di benua dengan lebih dari 2.000 bahasa, sebagian besar diucapkan daripada ditulis, suara bukanlah pilihan; itu adalah titik masuk.
Selama bertahun-tahun, teknologi digital berpusat pada literasi, keyboard, dan teks. Tetapi di Afrika, bahasa hidup dalam percakapan, di pasar, pertanian, klinik, dan rumah. AI yang tidak dapat mengurai aksen, intonasi, atau pengalihan kode tidak dapat melayani sebagian besar orang Afrika secara bermakna. WAXAL bertujuan untuk mengubah itu. Alih-alih hanya fokus pada terjemahan teks, proyek ini menciptakan infrastruktur dasar untuk AI ucapan-ke-ucapan dalam bahasa Afrika dengan sumber daya rendah, berpusat pada pembangunan pusat "bahan baku" linguistik yang luas dan berkualitas tinggi.
"Memiliki AI yang dapat berbicara kepada kita dalam bahasa kita dan memahami kita, apakah itu aksen atau intonasi kita, sebenarnya sangat penting," kata Diack.
Tantangan dimulai dengan ketidakseimbangan yang mencolok. Lebih dari 50% dari semua situs web dalam bahasa Inggris dan segelintir bahasa Barat. 2.000-plus bahasa Afrika hampir tidak terdaftar dalam dataset digital global. Sebagian besar tidak terwakili secara online. Banyak yang tidak ditulis secara ekstensif. Beberapa tidak distandarisasi sama sekali.
Jika model AI dilatih pada teks digital, dan teks digital hampir tidak ada untuk bahasa Afrika, maka benua tersebut memulai perlombaan AI dengan kerugian struktural.
"Ini bukan masalah baru," kata Diack. "Orang-orang dalam penelitian menyadari kesenjangan besar dalam kurangnya data ini."
Tanpa data, model tidak dapat dilatih. Tanpa model terlatih, sistem AI salah dengar, salah terjemahan, atau mengabaikan seluruh populasi. Diack menceritakan frustrasi umum: berbicara dengan aksen Afrika frankofon sementara sistem pencatatan AI kesulitan memahaminya. Teknologi ada, tetapi tidak disetel dengan konteks lokal.
Kesenjangan itulah yang ingin ditutup oleh WAXAL.
Diluncurkan secara resmi pada Februari 2026 setelah tiga tahun pengembangan, WAXAL menghasilkan salah satu dataset ucapan terbesar untuk bahasa Afrika hingga saat ini: lebih dari 11.000 jam ucapan yang direkam dari hampir 2 juta rekaman individual, mencakup 21 bahasa Afrika Sub-Sahara, termasuk Hausa, Yoruba, Luganda, dan Acholi.
Selain pengumpulan ucapan umum, Google mengatakan telah menginvestasikan lebih dari 20 jam rekaman studio berkualitas tinggi untuk mengembangkan suara sintetis yang terdengar alami untuk asisten suara. Rekaman "studio premium" ini dirancang untuk membuat respons AI terdengar kurang robotik dan lebih otentik secara budaya.
Google menyusun inisiatif ini sebagai model kemitraan. Universitas seperti Universitas Makerere di Uganda dan Universitas Ghana memimpin sebagian besar pengumpulan data. Mitra lokal mempertahankan kepemilikan dataset, yang telah dirilis sebagai sumber terbuka di bawah lisensi yang memungkinkan penggunaan komersial.
"Kami sebagian besar memberikan panduan dan pendanaan," jelas Diack. "Semua dataset ini bukan milik kami. Ini milik mitra yang bekerja dengan kami."
Ambisinya bukan hanya untuk memberi makan produk Google sendiri tetapi untuk menabur ekosistem.
Dalam beberapa hari setelah peluncuran, dataset mencatat lebih dari 4.000 unduhan, tanda awal dari pengambilan peneliti dan pengembang, menurut Diack
Google sudah menawarkan alat terjemahan di banyak bahasa. Jadi mengapa mulai dari awal?
Karena terjemahan bukan ucapan.
Terjemahan mesin tradisional bergantung pada "teks paralel," kalimat yang ditulis dalam satu bahasa yang diselaraskan dengan padanannya dalam bahasa lain. Untuk bahasa dengan sumber daya rendah, korpora paralel seperti itu hampir tidak ada. Dan bahkan ketika terjemahan berhasil, itu tidak menyelesaikan masalah yang lebih dalam: banyak orang Afrika berinteraksi dengan teknologi terutama melalui ucapan.
"Banyak orang sebenarnya tidak tahu cara membaca dan menulis di benua ini," kata Diack. "Suara pada dasarnya adalah gerbang menuju teknologi."
Bayangkan seorang petani di Kaduna bertanya tentang prakiraan cuaca dalam bahasa Hausa. Atau seorang ibu di desa pedesaan Ghana yang mencari saran nutrisi dalam bahasa lokalnya. Sistem berbasis teks mengasumsikan literasi dan ejaan standar. Sistem suara harus menavigasi dialek, bahasa gaul, pengalihan kode, dan pola ucapan atipikal.
Di Ghana, proyek pengenalan ucapan, inisiatif UGSpeechData, menghasilkan lebih dari 5.000 jam data audio. Inisiatif itu kemudian memungkinkan pengembangan chatbot kesehatan ibu yang beroperasi dalam bahasa lokal. Ini juga diperluas ke pekerjaan pada ucapan atipikal, membantu komunitas individu tuli dan penyintas stroke yang pola ucapannya sering membingungkan sistem AI arus utama.
"Sistem AI tidak disesuaikan dengan itu," kata Diack. "Jika Anda memiliki berbagai jenis ucapan, kemungkinan sistem tidak akan memahami Anda."
Google tidak sendirian dalam perlombaan ini.
Masakhane, kolektif penelitian sumber terbuka akar rumput, telah membangun sistem terjemahan di lebih dari 45 bahasa Afrika dan mengembangkan Lulu, tolok ukur untuk mengevaluasi model bahasa Afrika. Filosofinya adalah komunitas pertama dan sepenuhnya terbuka.
Lelapa AI Afrika Selatan, didirikan oleh mantan peneliti DeepMind, berfokus pada produk Pemrosesan Bahasa Alami (NLP) komersial untuk bisnis Afrika. Model unggulannya, Vulavula, menangkap dialek dan pola pengalihan kode perkotaan dalam isiZulu, Sesotho, dan Afrikaans. Lelapa menekankan dataset "kebenaran dasar" dan analisis kesalahan manusia yang berat, pendekatan yang mahal tetapi berketelitian tinggi.
Lesan AI di Ethiopia telah membangun beberapa sistem terjemahan paling akurat untuk Amharik, Tigrinya, dan Oromo menggunakan model manusia-dalam-lingkaran untuk memastikan nuansa budaya.
Proyek No Language Left Behind (NLLB-200) Meta mengambil pendekatan skala besar, menerjemahkan ke 200 bahasa, termasuk 55 bahasa Afrika, menggunakan pembelajaran zero-shot. Microsoft, sementara itu, mengintegrasikan bahasa Afrika ke dalam Microsoft Translator dan berinvestasi dalam dataset pertanian multi-modal melalui proyek seperti Gecko.
Inisiatif African Next Voices yang didanai Gates Foundation diluncurkan pada akhir 2025, menghasilkan 9.000 jam data ucapan di 18 bahasa.
Ekosistemnya beragam: kolektif sumber terbuka, startup komersial, raksasa Big Tech, penyandang dana filantropis. Masing-masing mendekati masalah secara berbeda: skala versus kedalaman, teks versus suara, terbuka versus proprietary.
Kekhasan Google terletak pada pendekatannya yang berat ucapan dan berorientasi ekosistem.
Namun keterlibatan raksasa teknologi global tak terhindarkan menimbulkan pertanyaan tentang kedaulatan data dan ketergantungan.
Jika Google mengoordinasikan rilis dataset ucapan multibahasa, apakah itu menciptakan ketergantungan struktural pada produk Google? Bisakah pengembang lokal menjadi tergantung pada alat yang tertanam dalam Gemini, Search, atau Android?
Diack mengakui ketegangan tetapi memperingatkan agar tidak menjadi begitu konflik sehingga tidak ada yang dilakukan tentang peluang yang disajikan.
"Yang paling penting adalah kita tidak tertinggal," katanya. "Saya pasti tidak ingin data saya disalahgunakan. Tetapi ini tentang memungkinkan pengusaha, startup, dan peneliti untuk bekerja pada data yang benar-benar penting."
Dia menarik paralel dengan kemitraan antara universitas dan perusahaan teknologi di Amerika Serikat dan Eropa. Kolaborasi, menurutnya, mempercepat pembangunan kemampuan. Para peneliti yang terlibat dalam proyek awal telah menerbitkan makalah dan maju ke peran penelitian global.
Model lisensi terbuka adalah pusat argumen itu. Pengembang dapat membangun produk komersial di atas dataset WAXAL tanpa bergantung pada API proprietary Google. Google juga telah merilis model terjemahan bobot terbuka seperti Translate Gemma, yang dapat diunduh dan disetel secara independen.
Apakah keseimbangan itu memuaskan kritikus masih harus dilihat. Tetapi skala kesenjangan bahasa menunjukkan bahwa ketidakaktifan mungkin membawa risiko yang lebih besar.
AI suara tidak ada dalam isolasi. Ini memerlukan konektivitas, bandwidth, dan infrastruktur komputasi.
"Anda tidak dapat benar-benar melatih model AI tanpa infrastruktur yang tepat," kata Diack.
Google telah berinvestasi dalam kabel bawah laut, termasuk mendaratkan kabel Equiano di Nigeria dan pasar Afrika lainnya, untuk memperkuat ketahanan broadband. Pemotongan serat dalam beberapa tahun terakhir mengekspos kerapuhan jaringan regional. Infrastruktur redundan berkapasitas tinggi sangat penting tidak hanya untuk layanan cloud tetapi juga untuk pusat data lokal, pilar kunci kedaulatan digital.
Pengembangan AI bergantung pada tiga fondasi: orang, data, dan infrastruktur. Populasi muda Afrika, diproyeksikan menyumbang sebagian besar pengguna AI global dalam dekade mendatang, menawarkan keuntungan demografis. Tetapi tanpa investasi dalam kapasitas penelitian dan infrastruktur digital, potensi demografis tidak akan diterjemahkan menjadi kepemimpinan teknologi.
Untuk menghindari fragmentasi, Google telah beralih dari kemitraan universitas yang terisolasi ke model kolaborasi yang lebih terkoordinasi. Salah satu upaya tersebut melibatkan bekerja dengan pusat bahasa Masakhane dan jaringan sukarelawan lainnya untuk memungkinkan peneliti dan startup mengajukan pendanaan dan berkontribusi pada dataset bersama.
"Jika kita semua melakukan hal kita sendiri di seluruh benua, itu tidak efektif," kata Diack. "Kita memerlukan upaya yang terkonsentrasi."
Sejauh ini, WAXAL telah mencakup 27 bahasa, termasuk empat bahasa Nigeria. Beberapa bahasa yang sudah dicakup termasuk Acholi, Akan, Dagaare, Dagbani, Dholuo, Ewe, Fante, Fulani (Fula), Hausa, Igbo, Ikposo (Kposo), Kikuyu, Lingala, Luganda, Malagasy, Masaaba, Nyankole, Rukiga, Shona, Soga (Lusoga), Swahili, dan Yoruba.
Ambisi untuk mengatasi semua 2.000-plus bahasa Afrika adalah aspirasional, mungkin generasional.
"Itu impian saya," kata Diack.
Tetapi prioritas penting. Dia menunjuk ke pendidikan, pertanian, dan kesehatan sebagai domain kritis di mana AI suara dapat memberikan dampak terukur yang selaras dengan tujuan pembangunan berkelanjutan.
Prakiraan cuaca yang terintegrasi ke dalam Google Search, ditingkatkan melalui inisiatif penelitian Afrika, sudah menunjukkan spillover global. Proyek deteksi penyakit singkong seperti PlantVillage Nuru yang dikembangkan melalui kemitraan antara Penn State University, International Institute of Tropical Agriculture (IITA), dan Consultative Group on International Agricultural Research (CGIAR), telah mempengaruhi AI pertanian di luar Afrika. Preseden ini menunjukkan bahwa solusi yang dibangun untuk Afrika dapat berskala global.
Mengumpulkan data suara dalam pengaturan sumber daya rendah itu mahal. Rekaman lapangan, transkripsi, validasi linguistik, dan sintesis suara berkualitas studio memerlukan pendanaan berkelanjutan.
Investasi Google adalah bagian dari pergeseran industri yang lebih luas dari mengikis teks yang tersedia untuk berinvestasi dalam data ucapan asli. Model verifikasi manusia-dalam-lingkaran Lelapa AI menggarisbawahi biaya akurasi. Dataset FLORES-200 Meta bergantung pada penerjemah profesional. Inisiatif suara pertanian Microsoft melibatkan ribuan video beranotasi.
Kualitas penting. Suara sintetis harus terdengar alami. Sistem pengenalan harus menangani pengalihan kode. Ucapan perkotaan sering memadukan bahasa Inggris, bahasa lokal, dan bahasa gaul dalam kalimat yang sama.
AI Afrika tidak dapat dibangun hanya melalui otomasi; itu akan memerlukan keahlian budaya dan linguistik.
Bagi Diack, kesuksesan tidak hanya diukur dengan integrasi produk.
"Saya ingin melihat startup memanfaatkan dataset untuk menyediakan layanan dalam bahasa lokal," katanya. "Saya ingin melihat peneliti menulis makalah berdasarkan bahasa kita, bukan hanya bahasa Inggris."
Pada akhirnya, bagaimanapun, pintu yang dibangun Google harus mengarah ke suatu tempat yang nyata. Itu termasuk produk Google; Search, Gemini, asisten suara, yang berinteraksi dengan lancar dalam bahasa Yoruba, Wolof, Hausa, atau Luganda. Tetapi itu juga termasuk startup independen yang membangun alat fintech, chatbot kesehatan, atau sistem penasihat pertanian.
Jika ada, masa depan AI Afrika bergantung pada apakah suara menjadi kekuatan penyeimbang atau peluang yang terlewatkan lainnya. Jika ucapan tetap tidak dikenali oleh sistem global, miliaran kata yang diucapkan setiap hari di seluruh benua akan tetap tidak terlihat secara digital.


