Layanan streaming global Netflix telah memperkenalkan VOID, sebuah framework open-source yang dirancang untuk menghapus objek dari video sambil mempertahankan interaksi fisik yang mereka ciptakan, mengatasi keterbatasan yang terlihat pada alat inpainting tradisional dan alat penghapus objek.
Secara historis, menghapus objek dari sebuah adegan cukup mudah, tetapi memastikan lingkungan berperilaku secara realistis setelahnya menimbulkan tantangan yang signifikan. Misalnya, menghapus seseorang yang memegang gitar membuat instrumen tersebut melayang secara tidak wajar, dan menghapus penyelam dari kolam dapat membuat air tidak bergerak. Tim efek visual secara tradisional memperbaiki masalah seperti itu secara manual, sebuah proses yang memakan waktu yang dapat berlangsung dari beberapa hari hingga berminggu-minggu untuk satu adegan saja.
VOID, singkatan dari Video Object and Interaction Deletion, dimaksudkan untuk menyelesaikan komplikasi ini. Tidak seperti metode konvensional yang hanya mengisi piksel yang hilang, sistem ini memprediksi hasil yang konsisten secara fisik untuk adegan setelah objek dihapus.
Sistem ini memanfaatkan kombinasi teknologi untuk mencapai hal ini. Gemini dari Google menganalisis adegan untuk mengidentifikasi area yang akan terpengaruh oleh penghapusan, sementara SAM2 dari Meta mensegmentasi objek yang akan dihapus. Output ini dikodekan ke dalam quadmask, peta empat nilai yang menunjukkan area mana yang harus dihapus, mana yang tumpang tindih, mana yang terdampak secara fisik, dan mana yang tetap tidak tersentuh. Model difusi video yang dibangun di atas CogVideoX Alibaba kemudian merekonstruksi adegan dengan cara yang masuk akal secara fisik. Tahap kedua opsional menerapkan optical flow untuk memperbaiki distorsi apa pun dari rekonstruksi awal.
Demonstrasi VOID menunjukkan hasil yang menarik: balon naik secara alami ketika pemegangnya dihapus, balok mempertahankan stabilitas ketika balok yang tidak terkait dihapus, dan permukaan kolam tetap tidak terpengaruh setelah seseorang dihapus. Dalam studi preferensi manusia dengan 25 peserta, VOID dipilih 64,8 persen dari waktu, mengungguli Runway, alternatif komersial terkemuka, yang hanya mencapai 18,4 persen.
Rilis ini menandai alat AI pertama Netflix Research yang tersedia untuk publik. Dilisensikan di bawah Apache 2.0, VOID dapat digunakan secara komersial dan dihosting di Hugging Face. Persyaratan perangkat keras saat ini membatasi akses, dengan GPU VRAM 40GB diperlukan untuk menjalankan model, tetapi optimasi di masa depan dan pengurangan biaya infrastruktur dapat memperluas ketersediaan. VOID mewakili pergeseran dalam teknologi produksi video, bergerak dari alat penghapus sederhana menuju sistem yang mampu memahami dan merekonstruksi adegan secara realistis, sebuah perkembangan dengan implikasi signifikan untuk alur kerja profesional.
Postingan Netflix Mengungkap VOID: Framework Open-Source Untuk Penghapusan Objek Video yang Konsisten Secara Fisik pertama kali muncul di Metaverse Post.


