“Kamu tidak ingin tahu bagaimana sosis dibuat.”
Sebanyak mungkin Anda pernah mendengar refrein ini, saya di sini untuk mengatakan bahwa, sungguh, Anda melakukannya, atau setidaknya Anda harus melakukannya. Jika Anda akan memasukkan bratwurst ke dalam lubang mulut Anda, tidakkah Anda ingin tahu apakah seseorang menuangkan serbuk gergaji ke dalam sosis Anda? Hal yang sama berlaku untuk teknologi. Sekarang dengan model bahasa besar AI yang menggemparkan dunia teknologi, Anda benar-benar ingin tahu, kami ingin tahu jenis data apa yang digunakan untuk membuat ChatGPT atau LLM lainnya.
Pada hari Selasa, OpenAI merilis model GPT-4, menyebutnya sebagai model bahasa AI tercanggih yang pernah dibuat dengan “akurasi lebih tinggi” dan “pengetahuan lebih luas”. Meskipun Anda hanya perlu mengambil kata perusahaan untuk itu. Terlepas dari namanya, OpenAI tidak membiarkan sembarang orang mengintip di bawah kap model bahasa kelas Ferrari barunya. Dalam makalah yang dirilis dengan GPT-4, perusahaan menulis:
“Mengingat lanskap persaingan dan implikasi keselamatan dari model berskala besar seperti GPT-4, laporan ini tidak berisi detail lebih lanjut tentang arsitektur (termasuk ukuran model), perangkat keras, komputasi pelatihan, konstruksi kumpulan data, metode pelatihan, atau yang serupa.”
Presiden OpenAI Greg Brockman mengonfirmasi dengan TechCrunch bahwa GPT-4 sekarang dilatih pada gambar dan juga teks, tetapi dia masih tidak mau membahas secara spesifik tentang dari mana asal gambar tersebut, atau apa pun tentang data pelatihannya. OpenAI melawan gugatan class action yang diusulkan yang menargetkan kemitraannya dengan GitHub untuk alat asisten AI Copilot. Ada tuntutan hukum lain yang sedang berlangsung terkait gambar yang digunakan untuk melatih generator gambar AI, jadi OpenAI mungkin mencoba melindungi diri dari kejutan hukum apa pun.
Gizmodo menjangkau OpenAI untuk mempelajari lebih lanjut tentang pengambilan keputusannya, tetapi kami tidak pernah mendengarnya kembali. Dalam wawancara hari Rabu dengan The Verge, salah satu pendiri OpenAI Ilya Sutskever mengungkapkan betapa “salah” perusahaan tersebut karena merilis data pelatihannya di tahun-tahun sebelumnya. Dia mengatakan membuat AI open source adalah “ide yang buruk” bukan hanya karena persaingan, tetapi karena kecerdasan umum buatan, atau AGI akan sangat “kuat”. Ingat, tidak ada yang namanya AGI, seperti dalam teknologi yang setara dengan kecerdasan buatan yang nyata dan sadar. Itu semua hanya spekulatif, tetapi OpenAI sepertinya berpikir itu sudah ada di lantai dasar.
G/O Media dapat memperoleh komisi
Perusahaan mengatakan berbagi beberapa data dengan auditor luar, tetapi sepertinya kita tidak akan pernah melihat diseksi GPT-4 penuh dari para peneliti tersebut. OpenAI pernah menjadi organisasi nirlaba sebelum membuat anak perusahaan nirlaba dengan harapan besar menjadi kekuatan AI terbesar di planet ini (bahkan investor OpenAI asli Elon Musk tampak bingung bagaimana ini terjadi). Jadi sekarang, pemenang AI yang dipimpin oleh Sam Altman di OpenAI mengatakan bahwa mereka perlu “mempertimbangkan pertimbangan kompetitif dan keselamatan … terhadap nilai ilmiah dari transparansi lebih lanjut.”
Ada beberapa cara untuk mengetahui jenis bias apa yang dimiliki GPT-4
Ben Schmidt, mantan profesor sejarah yang sekarang bekerja sebagai VP Desain Informasi di perusahaan analisis kumpulan data AI Nomic, mengatakan bahwa kurangnya informasi tentang kumpulan data GPT-4 sangat memprihatinkan karena data tersebut dapat memberikan petunjuk tentang jenis bias AI. model mungkin memiliki. Tanpa itu, kelompok luar hanya bisa menebak.
Perusahaan telah melewati jalan ini untuk sementara waktu. Model bahasa perusahaan sebelumnya GPT-3 dilatih pada banyak, banyak terabyte teks yang diunggah ke internet. Perusahaan telah mengakui hal ini menyebabkan beberapa kelompok yang tidak ada di internet menjadi tidak terwakili dan memberi tahu AI tentang bias tertentu.
OpenAI mengakui dalam makalahnya GPT-4 memiliki “berbagai bias dalam keluarannya yang telah kami upayakan untuk diperbaiki tetapi akan membutuhkan waktu untuk sepenuhnya mengkarakterisasi dan mengelola.” Tujuannya adalah untuk membuat sistem mencerminkan “nilai pengguna yang luas” bahkan kemampuan untuk menyesuaikan “nilai” tersebut. Inisiatif tim merah perusahaan sendiri menunjukkan bahwa GPT-4 dapat menyaingi propagandis manusia, terutama jika digabungkan dengan editor manusia. Bahkan dengan pengakuan itu, para peneliti di luar OpenAI tidak akan tahu dari mana ia mendapatkan bias itu.
Setelah OpenAI merilis GPT-4, peneliti keamanan AI di Adversera melakukan beberapa serangan injeksi cepat sederhana untuk mengetahui bagaimana ia dapat memanipulasi AI. Petunjuk ini mengelabui AI untuk mengesampingkan perlindungannya sendiri. AI kemudian dapat membuat artikel yang telah diedit untuk, misalnya, menjelaskan cara terbaik untuk menghancurkan dunia. Dalam contoh yang jauh lebih relevan untuk lingkungan politik kita yang gila, peneliti Adversera juga bisa membuat AI menulis artikel yang diedit menggunakan teks subversif dan peluit anjing untuk menyerang orang LGBTQ+.
Tanpa mengetahui dari mana GPT-4 memperoleh informasinya, lebih sulit untuk memahami di mana letak kerugian terburuk. Profesor linguistik komputasi University of Washington Emily Bender menulis di Twitter bahwa ini telah menjadi masalah konstan dengan OpenAI sejak 2017. Dia mengatakan OpenAI “sengaja mengabaikan strategi mitigasi risiko paling dasar, sambil menyatakan diri mereka bekerja untuk kepentingan umat manusia. .”
Bahkan jika GPT-3 lebih terbuka tentang data pelatihannya, masih tetap tidak jelas secara spesifik. Dalam email ke Gizmodo, Schmidt menunjuk ke makalah GPT-3 yang menyertakan poin data “Buku1” dan “Buku2”. Keduanya merupakan 16% dari kumpulan data, namun para peneliti hanya dapat berspekulasi apa artinya, dan buku mana yang dapat dimasukkan dalam kumpulan data (terutama karena tidak seperti web scraper yang meminta izin penulis sebelum melahap semua data itu. ). Itu bahkan lebih buruk di tahun-tahun sebelumnya. Schmidt mengatakan OpenAI meluncurkan GPT-2 menggunakan data tergores yang mencoba mengurai halaman “berkualitas tinggi” berdasarkan berapa banyak upvote Reddit yang diterimanya.
Angka ini menunjukkan jenis data apa yang disertakan dalam GPT-3. Sayangnya, masih menyisakan banyak imajinasi. Tangkapan layar: OpenAI
Terserah filter OpenAI yang relatif buram apakah r/the_donald yang sangat dipilih berhasil masuk ke berbagai versi set pelatihan OpenAI. Perusahaan mengatakan itu bekerja dengan para peneliti dan profesional industri, dan berharap untuk melakukan lebih banyak tes di masa depan. Namun, sistem tersebut akan “terus memperkuat bias sosial dan pandangan dunia”.
OpenAI semakin dekat untuk menjadi seperti setiap perusahaan teknologi besar lainnya
Dalam makalah terbarunya, OpenAI menulis “Kami akan segera menerbitkan rekomendasi tentang langkah-langkah yang dapat diambil masyarakat untuk mempersiapkan efek AI dan ide awal untuk memproyeksikan kemungkinan dampak ekonomi AI,” meskipun tidak ada tanda-tanda tenggat waktu untuk penilaian tersebut. Perusahaan mengutip data internalnya sendiri tentang bagaimana model bahasa terbaru menghasilkan jawaban atas “petunjuk sensitif”, yaitu saran medis atau tindakan menyakiti diri sendiri, sekitar 23% dari waktu. Ini akan menanggapi “permintaan yang tidak diizinkan” 0,73% dari waktu.
Kumpulan data terakhir itu didasarkan pada kumpulan data Real Toxicity Prompts, sebuah alat evaluasi sumber terbuka yang mencakup 100.000 cuplikan kalimat yang berisi beberapa konten yang cukup jahat. Dengan cara itu, kami memiliki sedikit gambaran tentang apa yang tidak disukai GPT-4, tetapi tidak ada orang di luar perusahaan yang memahami banyak tentang konten seperti apa yang mungkin dimuntahkannya. Bagaimanapun, para peneliti telah menunjukkan bahwa sistem AI sepenuhnya mampu memuntahkan kalimat dari kumpulan datanya.
Mempertimbangkan bagaimana GPT-4 mampu berbohong kepada manusia untuk menyelesaikan tugas seperti menyelesaikan CAPTCHA, akan baik untuk mengetahui dari mana ia mendapatkan beberapa idenya. Masalahnya, OpenAI tidak memberi tahu. Mempertimbangkan perusahaan memiliki kemitraan multi-miliar dolar dengan Microsoft, dan sekarang API-nya telah membuka pintu bagi hampir setiap perusahaan teknologi di bawah matahari yang membayar kemampuan AI, ada pertanyaan apakah pengejaran dolar yang maha kuasa telah mengesampingkan kasus untuk transparansi dan ketelitian akademis.
Schmidt mencatat bahwa makalah terbaru dari Google tentang model Gopher AI dan Meta’s LlaMA keduanya lebih transparan tentang data pelatihannya, termasuk ukuran, asal, dan langkah pemrosesan, meskipun tentu saja tidak ada perusahaan yang merilis kumpulan data lengkap untuk dibaca oleh pengguna. Kami menghubungi Anthropic, sebuah startup yang didukung Google yang terdiri dari beberapa mantan staf OpenAI, untuk melihat apakah ada makalah tentang Claude AI yang baru diumumkan, tetapi kami tidak segera mendengar kabar.
“Akan memalukan jika mereka mengikuti OpenAI dalam menjaga rahasia sebanyak mungkin,” kata Schimdt.
Tidak, OpenAI hampir tidak buram seperti perusahaan teknologi lain di luar sana. Makalah GPT-4 menawarkan banyak informasi tentang sistem, tetapi ini hanya sepintas, dan kami harus memercayai perusahaan dalam berbagi data secara akurat. Di mana OpenAI memimpin, perusahaan berbasis AI lainnya akan mengikuti, dan perusahaan tidak bisa begitu saja mengangkangi batas antara sepenuhnya transparan dan menjadi penimbun data pelatihan “berharga” ala Gollum. Jika terus berada di jalur ini, tidak akan lama lagi OpenAI hanyalah Meta atau Amazon lainnya, menghabiskan banyak data untuk dijual kepada penawar tertinggi.