Teks ke Video AI Generatif Akhirnya Ada di Sini dan Aneh sekali

Saya suka AI saya seperti saya suka varietas keju asing saya, sangat aneh dan penuh lubang, jenis yang meninggalkan sebagian besar definisi “baik” sesuai selera masing-masing. Jadi warnai saya dengan terkejut ketika saya menjelajahi perbatasan berikutnya dari model AI publik, dan menemukan salah satu pengalaman teraneh yang saya alami sejak Seinfeld tiruan Tidak Ada, Selamanya yang dibuat oleh AI pertama kali dirilis.

Runway, salah satu dari dua perusahaan rintisan yang membantu memberi kami generator seni AI Stable Diffusion, mengumumkan pada hari Senin bahwa uji publik pertamanya untuk model video AI Gen-2 akan segera ditayangkan. Perusahaan membuat klaim yang menakjubkan bahwa itu adalah “model teks-ke-video pertama yang tersedia untuk umum di luar sana.” Sayangnya, grup yang lebih tidak jelas dengan model teks-ke-video awal yang jauh lebih jangkrik mungkin telah mengalahkan Runway dengan sangat baik.

Google dan Meta sudah mengerjakan generator teks-ke-gambar mereka sendiri, tetapi tidak ada perusahaan yang sangat terbuka dengan berita apa pun sejak pertama kali diejek. Sejak Februari, tim beranggotakan 45 orang yang relatif kecil di Runway telah dikenal dengan alat pengeditan video online-nya, termasuk model AI video-ke-video Gen-1 yang dapat membuat dan mengubah video yang ada berdasarkan perintah teks atau gambar referensi. Gen-1 dapat mengubah render sederhana dari sosok tongkat yang berenang menjadi penyelam scuba, atau mengubah seorang pria yang berjalan di jalan menjadi mimpi buruk claymation dengan overlay yang dihasilkan. Gen-2 seharusnya menjadi langkah besar berikutnya, memungkinkan pengguna membuat video 3 detik dari awal berdasarkan permintaan teks sederhana. Meskipun perusahaan belum membiarkan siapa pun mendapatkannya, perusahaan membagikan beberapa klip berdasarkan petunjuk seperti “mata dekat” dan “bidikan lanskap gunung dari udara”.

Hanya sedikit orang di luar perusahaan yang dapat merasakan model baru Runway, tetapi jika Anda masih mendambakan pembuatan video AI, ada opsi lain. Teks AI ke sistem video yang disebut ModelScope dirilis selama akhir pekan lalu dan telah menimbulkan desas-desus karena klip video 2 detik yang terkadang canggung dan sering gila. DAMO Vision Intelligence Lab, sebuah divisi penelitian raksasa e-commerce Alibaba, menciptakan sistem tersebut sebagai semacam kasus uji publik. Sistem ini menggunakan model difusi yang cukup mendasar untuk membuat videonya, menurut halaman perusahaan yang menjelaskan model AI-nya.

ModelScope adalah open source dan sudah tersedia di Hugging Face, meskipun mungkin sulit untuk menjalankan sistem tanpa membayar sedikit biaya untuk menjalankan sistem di server GPU terpisah. Tech YouTuber Matt Wolfe memiliki tutorial yang bagus tentang cara menyiapkannya. Tentu saja, Anda dapat melanjutkan dan menjalankan kode sendiri jika Anda memiliki keterampilan teknis dan VRAM yang mendukungnya.

ModelScope cukup mencolok dari mana datanya berasal. Banyak dari video yang dihasilkan ini berisi garis besar logo Shutterstock yang tidak jelas, yang berarti data pelatihan kemungkinan besar mencakup sebagian besar video dan gambar yang diambil dari situs stok foto. Ini masalah serupa dengan generator gambar AI lainnya seperti Stable Diffusion. Getty Images telah menggugat Stability AI, perusahaan yang menghadirkan generator seni AI ke publik, dan mencatat berapa banyak gambar Stable Diffusion yang membuat versi rusak dari tanda air Getty.

Tentu saja, itu masih belum menghentikan beberapa pengguna untuk membuat film kecil menggunakan AI yang agak canggung, seperti Darth Vader berwajah gemuk yang mengunjungi supermarket atau Spider-Man dan capybara bekerja sama untuk menyelamatkan dunia.

Sejauh Runway berjalan, grup ini mencari nama untuk dirinya sendiri di dunia penelitian AI yang semakin ramai. Dalam makalah mereka yang menjelaskan sistem Gen-1-nya, peneliti Runway mengatakan model mereka dilatih pada gambar dan video dari “kumpulan data skala besar” dengan data teks-gambar di samping video tanpa teks. Para peneliti tersebut menemukan bahwa hanya ada kekurangan kumpulan data video-teks dengan kualitas yang sama dengan kumpulan data gambar lainnya yang menampilkan gambar yang diambil dari internet. Ini memaksa perusahaan untuk mendapatkan data mereka dari video itu sendiri. Ini akan menarik untuk melihat bagaimana versi teks-ke-video Runway yang kemungkinan lebih halus, terutama dibandingkan dengan ketika pemukul berat seperti Google memamerkan lebih banyak video naratif yang lebih panjang.

Jika daftar tunggu Gen-2 baru Runway seperti daftar untuk Gen-1, maka pengguna dapat berharap untuk menunggu beberapa minggu sebelum mereka sepenuhnya mendapatkan sistem. Sementara itu, bermain-main dengan ModelScope mungkin merupakan pilihan pertama yang baik bagi mereka yang mencari interpretasi AI yang lebih aneh. Tentu saja, ini sebelum kita melakukan percakapan yang sama tentang video yang dihasilkan AI seperti yang sekarang kita lakukan tentang gambar buatan AI.

Slide berikut adalah beberapa upaya saya untuk membandingkan Runway dengan ModelScope dan juga menguji batas kemampuan teks ke gambar. Saya mengubah gambar menjadi format GIF menggunakan parameter yang sama pada masing-masing gambar. Framerate pada GIF mendekati video buatan AI asli.