ImageBind AI sumber terbuka Meta bertujuan untuk meniru persepsi manusia

Meta adalah sumber terbuka alat AI yang disebut ImageBind yang memprediksi koneksi antara data yang serupa dengan cara manusia memandang atau membayangkan suatu lingkungan. Sementara pembuat gambar seperti Midjourney, Stable Diffusion dan DALL-E 2 memasangkan kata dengan gambar, memungkinkan Anda menghasilkan adegan visual hanya berdasarkan deskripsi teks, ImageBind memberikan jaring yang lebih luas. Itu dapat menghubungkan teks, gambar / video, audio, pengukuran 3D (kedalaman), data suhu (termal), dan data gerakan (dari unit pengukuran inersia) — dan ini dilakukan tanpa harus terlebih dahulu melatih setiap kemungkinan. Ini adalah tahap awal kerangka kerja yang pada akhirnya dapat menghasilkan lingkungan yang kompleks dari input sesederhana prompt teks, rekaman gambar atau audio (atau kombinasi dari ketiganya).

Anda dapat melihat ImageBind sebagai pembelajaran mesin yang bergerak lebih dekat dengan pembelajaran manusia. Misalnya, jika Anda berdiri di lingkungan yang merangsang seperti jalan kota yang sibuk, otak Anda (sebagian besar secara tidak sadar) menyerap pemandangan, suara, dan pengalaman sensorik lainnya untuk menyimpulkan informasi tentang mobil dan pejalan kaki yang lewat, gedung tinggi, cuaca, dan banyak lagi. Manusia dan hewan lain berevolusi untuk memproses data ini untuk keuntungan genetik kita: bertahan hidup dan mewariskan DNA kita. (Semakin sadar Anda akan lingkungan Anda, semakin Anda dapat menghindari bahaya dan beradaptasi dengan lingkungan Anda untuk kelangsungan hidup dan kemakmuran yang lebih baik.) Saat komputer semakin dekat untuk meniru koneksi multi-indera hewan, mereka dapat menggunakan tautan tersebut untuk menghasilkan kesadaran penuh adegan hanya berdasarkan potongan data yang terbatas.

Jadi, meskipun Anda dapat menggunakan Midjourney untuk meminta “anjing basset mengenakan pakaian Gandalf sambil menyeimbangkan bola pantai” dan mendapatkan foto yang relatif realistis dari pemandangan aneh ini, alat AI multimodal seperti ImageBind pada akhirnya dapat membuat video anjing dengan suara yang sesuai, termasuk ruang tamu pinggiran kota yang mendetail, suhu ruangan, dan lokasi yang tepat dari anjing dan siapa pun di tempat kejadian. “Ini menciptakan peluang khusus untuk membuat animasi dari gambar statis dengan menggabungkannya dengan perintah audio,” kata peneliti Meta hari ini dalam posting blog yang berfokus pada pengembang. “Misalnya, pencipta dapat memasangkan gambar dengan jam alarm dan ayam berkokok, dan menggunakan prompt audio berkokok untuk menyegmentasikan ayam atau suara alarm untuk menyegmentasikan jam dan menganimasikan keduanya ke dalam urutan video.”

Grafik Meta menunjukkan akurasi ImageBind mengungguli model mode tunggal.

Meta

Adapun apa lagi yang bisa dilakukan dengan mainan baru ini, jelas menunjuk ke salah satu ambisi inti Meta: VR, realitas campuran dan metaverse. Misalnya, bayangkan headset masa depan yang dapat membuat adegan 3D yang terwujud sepenuhnya (dengan suara, gerakan, dll.) dengan cepat. Atau, pengembang game virtual mungkin pada akhirnya dapat menggunakannya untuk menghilangkan banyak kerja keras dari proses desain mereka. Demikian pula, pembuat konten dapat membuat video imersif dengan lanskap suara dan gerakan yang realistis hanya berdasarkan input teks, gambar, atau audio. Juga mudah untuk membayangkan alat seperti ImageBind membuka pintu baru di ruang aksesibilitas, menghasilkan deskripsi multimedia waktu nyata untuk membantu orang dengan gangguan penglihatan atau pendengaran lebih memahami lingkungan sekitar mereka.

“Dalam sistem AI tipikal, ada penyematan khusus (yaitu, vektor angka yang dapat mewakili data dan hubungannya dalam pembelajaran mesin) untuk masing-masing modalitas,” kata Meta. “ImageBind menunjukkan bahwa memungkinkan untuk membuat ruang penyematan bersama di beberapa modalitas tanpa perlu melatih data dengan setiap kombinasi modalitas yang berbeda. Ini penting karena tidak mungkin bagi peneliti untuk membuat kumpulan data dengan sampel yang berisi, misalnya, data audio dan data termal dari jalan kota yang ramai, atau data kedalaman dan deskripsi teks dari tebing tepi laut.”

Meta memandang teknologi ini pada akhirnya berkembang melampaui enam “indra” saat ini, begitulah. “Sementara kami menjelajahi enam modalitas dalam penelitian kami saat ini, kami yakin bahwa memperkenalkan modalitas baru yang menghubungkan sebanyak mungkin indera — seperti sentuhan, ucapan, penciuman, dan sinyal fMRI otak — akan memungkinkan model AI yang lebih kaya akan manusia.” Pengembang yang tertarik untuk menjelajahi kotak pasir baru ini dapat memulai dengan mempelajari kode sumber terbuka Meta.