Qwen 3.5 Omni: Model AI Alibaba Kini Dapat Mendengar, Menonton, dan Mengkloning Suara Anda

Ringkasan

Qwen 3.5 Omni dari Alibaba menghadirkan AI omnimodal real-time sejati ke dalam persaingan terdepan.
Pemrosesan audio-visual asli mengalahkan pipeline multimodal yang digabungkan dalam hal kecepatan dan koherensi.
Kloning suara, interupsi semantik, dan vibe coding menandakan pergeseran menuju agen AI yang sepenuhnya interaktif.

Alibaba baru saja meluncurkan peningkatan AI paling ambisius mereka hingga saat ini.

Tim Qwen perusahaan ini merilis Qwen 3.5 Omni pada hari Minggu, versi baru dari AI "omnimodal" mereka yang secara bersamaan memproses teks, gambar, audio, dan video, serta merespons secara real-time dalam 36 bahasa, menempatkan modelnya di medan pertempuran yang sama dengan model fundamental AI state-of-the-art terbaru yang tersedia saat ini.

"Omni" bukan hanya sekadar jargon pemasaran di sini. Sebagian besar model AI yang Anda gunakan adalah sistem teks-masuk, teks-keluar. Beberapa menangani gambar, beberapa menangani suara. Qwen 3.5 Omni menangani semuanya secara asli, pada waktu yang bersamaan, tanpa perlu mengonversi semuanya menjadi teks melalui alat pihak ketiga.

Model baru ini hadir dalam tiga ukuran—Plus, Flash, dan Light—semuanya mendukung jendela konteks 256.000 token yang kecil (menurut standar saat ini). Model ini dilatih dengan lebih dari 100 juta jam data audio-visual—skala yang menempatkannya di kelas berbeda dari sebagian besar pesaing.

Qwen 3.5 Omni adalah evolusi dari Qwen 3 Omni Flash, model omnimodal Alibaba sebelumnya yang dirilis pada Desember 2025. Versi tersebut sudah mengesankan dengan kemampuannya memproses video dan audio secara bersamaan—dapat menangani instruksi pengeditan gambar yang menggabungkan beberapa input visual dengan cara yang tidak bisa dilakukan pesaing—dan streaming respons suara dengan latensi serendah 234 milidetik.

Ini juga merupakan model pertama yang mencoba alternatif untuk NotebookLM Google. Model ini mencapai sesuatu, tetapi kualitasnya tidak setara dengan penawaran Google.

Qwen 3.5 Omni mengambil semua itu dan menambahkan jendela konteks yang lebih panjang, penalaran yang lebih baik, perpustakaan bahasa yang jauh lebih luas, dan serangkaian fitur interaksi real-time yang tidak dimiliki generasi sebelumnya.

Peningkatan utama adalah apa yang terjadi ketika Anda benar-benar berbicara dengannya. Qwen3.5-Omni sekarang mendukung interupsi semantik: Ia dapat membedakan antara Anda mengatakan "uh-huh" di tengah kalimat dan benar-benar ingin menyela, sehingga tidak akan berhenti di tengah pemikiran setiap kali seseorang batuk di latar belakang, membuat interaksi lisan lebih lancar.

Teknik baru yang disebut ARIA, singkatan dari Adaptive Rate Interleave Alignment, juga memperbaiki gangguan halus namun persisten: sistem AI yang mengacaukan angka atau kata-kata yang tidak biasa saat membaca dengan keras. ARIA secara dinamis menyinkronkan teks dan ucapan untuk menjaga output tetap alami dan akurat.

Kemudian ada kloning suara. Pengguna dapat mengunggah sampel suara dan membuat model mengadopsi suara tersebut dalam responsnya, fitur yang menempatkan Qwen langsung bersaing dengan ElevenLabs dan alat suara khusus lainnya. Namun, kami tidak dapat mengakses fitur ini, karena ini adalah fitur yang, setidaknya untuk saat ini, hanya tersedia melalui API.

Pada benchmark stabilitas suara multibahasa, Qwen3.5 Omni-Plus mengalahkan ElevenLabs, GPT-Audio, dan Minimax di 20 bahasa. Model ini juga sekarang mendukung pencarian web real-time, yang berarti dapat menjawab pertanyaan tentang berita terkini atau data pasar langsung tanpa berpura-pura sudah mengetahuinya.

Tim juga menyoroti apa yang mereka sebut "Audio-Visual Vibe Coding," model dapat menonton rekaman layar atau video dari tugas coding dan menulis kode fungsional berdasarkan murni pada apa yang dilihat dan didengar, tanpa perlu prompt teks. Ini adalah pratinjau kecil tentang bagaimana asisten AI mungkin akhirnya beroperasi di dalam alur kerja Anda daripada di sampingnya.

Untuk memahami apa yang sebenarnya dimaksud dengan "omnimodal" dalam praktik, kami melakukan tes cepat: Kami memberikan Qwen3.5-Omni dan ChatGPT 5.4 dalam mode "thinking" YouTube Short yang sama—klip Presiden Dastan (Dastan adalah perusahaan induk Decrypt) dan komentator Farokh membahas berita terkini. Qwen 3.5 Omni memproses video secara asli dan mengembalikan analisis lengkap dalam waktu sekitar satu menit: siapa yang berbicara, apa yang mereka diskusikan, dan komentar substantif tentang topik tersebut berdasarkan pengetahuannya sendiri tentang area subjek.

ChatGPT 5.4, yang bukan omnimodal, harus mengelola dengan apa yang didapatnya. Ia mengekstrak frame dari video, menjalankannya melalui model visi, menggunakan Whisper untuk mentranskripsikan audio, dan menerapkan alat OCR untuk membaca subtitle yang tertanam—tiga proses terpisah yang digabungkan untuk mendekati apa yang dilakukan Qwen3.5-Omni dalam satu proses. Hasilnya memakan waktu sembilan menit, dan itu dalam kondisi ideal: video yang terang dengan audio bersih dan subtitle yang tertanam. Konten dunia nyata jarang menawarkan ketiganya.

Dalam tes cepat kami di berbagai input, model juga menangani prompt dalam bahasa Spanyol, Portugis, dan Inggris tanpa masalah—beralih bahasa di tengah percakapan tanpa kehilangan konteks.

Pada benchmark standar, Qwen 3.5 Omni Plus mengungguli Gemini 3.1 Pro pada pemahaman audio umum, penalaran, dan tugas terjemahan, dan menyamainya pada pemahaman audio-visual. Pengenalan ucapan sekarang mencakup 113 bahasa dan dialek—naik dari 19 pada generasi sebelumnya.

Ini adalah rilis AI besar kedua Alibaba dalam enam minggu. Pada Februari, mereka meluncurkan Qwen 3.5, model teks-dan-visi yang menyamai atau mengalahkan model terdepan pada benchmark penalaran dan coding—bagian dari rentetan yang juga mencakup Qwen Deep Research dan jajaran alat yang menyaingi OpenAI dan Google. Qwen 3.5 Omni memperluas momentum tersebut ke wilayah multimodal penuh, pada saat setiap lab AI besar berlomba membangun sistem yang menangani spektrum penuh komunikasi manusia—bukan hanya kata-kata di layar.

Model ini sekarang tersedia melalui API Alibaba Cloud dan dapat diuji langsung di Qwen Chat atau melalui demo online Hugging Face.

Newsletter Daily Debrief

Mulai setiap hari dengan berita utama saat ini, ditambah fitur asli, podcast, video, dan lainnya.

Sumber: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Qwen 3.5 Omni: Model AI Alibaba Kini Dapat Mendengar, Menonton, dan Mengkloning Suara Anda

Ringkasan

Newsletter Daily Debrief

Anda Mungkin Juga Menyukai

Bukan celah hukum: Kontrol ekspor AI Singapura memungkinkan Tiongkok mengakses AI AS secara legal

Futures Perpetual Bitcoin: Rasio Long/Short di Bursa Teratas

Ekosistem Token LAB: Panduan Platform Perdagangan Multi-Rantai & Imbalan

Berita yang Sedang Tren

Pembaruan Pagi NordFX — 10 Juli 2026

Neraca Perdagangan Jerman Melonjak ke €19,1 Miliar pada Mei, Secara Nyaman Melampaui Prakiraan

Arbitrum Mengumumkan Sepuluh Tim Inovatif — Dan Mengapa Ini Bukan Sekadar Hype

ARK Invest milik Cathie Wood Membeli Saham Circle Senilai $13,7 Juta Sambil Menjual Saham Robinhood

Wajah perawatan lansia yang berubah di Malaysia — Sayed Mohammad Reza Yamani Sayed Umar

Berita Live 24/7

Bacaan Cepat

Efek Minggu Pertama MiCA Setelah Implementasi Penuh Membentuk Kembali Pasar Crypto Eropa

AMD Q2 2026 Pratinjau Pendapatan AI Chips dan Harapan Bisnis PC

Proyek Rantai Robinhood Terbaik untuk Ditonton di 2026 Dari Arcus ke CASHCAT

Perampokan Tidak Membangun Rantai Lain Ini Membangun Kembali Pialang

Perdamaian AS Iran Runtuh saat Serangan Tanker Meningkatkan Risiko Harga Minyak

Harga Kripto