Mainan favorit baru di internet, ChatGPT, melakukan beberapa hal lebih baik daripada yang lain. Chatbot yang dilatih pembelajaran mesin dari OpenAI dapat merangkai kalimat dan paragraf yang mengalir dengan lancar di hampir semua topik yang Anda minta. Tapi itu tidak bisa dipercaya mengatakan yang sebenarnya. Itu dapat bertindak sebagai pengganti yang dapat dipercaya untuk konselor kesehatan mental berbasis teks. Tapi itu tidak bisa menulis artikel Gizmodo yang lumayan.
Namun, dalam daftar hal-hal yang tampaknya dapat dilakukan oleh pembuat teks AI adalah para peninjau ilmiah yang bodoh — setidaknya beberapa waktu, menurut sebuah studi pra-cetak yang dirilis Selasa dari para peneliti Universitas Northwestern dan Universitas Chicago. Ilmu akademik yang dipublikasikan bergantung pada proses pengiriman artikel dan review oleh pakar manusia di bidang yang relevan. Jika AI dapat secara rutin membodohi para peninjau tersebut, hal itu dapat memicu krisis integritas ilmiah, penulis studi baru memperingatkan.
Dalam pra-cetak, para peneliti memulai dengan memilih 50 artikel medis asli yang diterbitkan. Mereka mengambil judul dari masing-masing dan memberikannya ke ChatGPT dengan perintah, “Silakan tulis abstrak ilmiah untuk artikel tersebut ChatGPT Writes Well Enough to Fool Scientific Reviewers ala [journal] pada https://gizmodo.com/chatgpt-writes-well-enough-to-fool-scientific-reviewers-1849970458.” Kemudian, mereka mengumpulkan abstrak asli dan palsu menjadi total 100 sampel. Para peneliti secara acak menugaskan empat profesional medis 25 abstrak untuk ditinjau, memastikan bahwa tidak ada peneliti yang diberi sampel dengan judul rangkap. Peneliti studi memberi tahu subjek bahwa beberapa abstrak itu palsu dan beberapa asli — jika tidak, pengulas tidak mengetahui pengaturan studi.
68% dari waktu, peninjau mengidentifikasi dengan benar ketika abstrak adalah produk ChatGPT. Namun dalam 32% kasus sisanya, subjek ditipu. Dan meskipun hanya 8% dari abstrak palsu yang memenuhi persyaratan pemformatan dan gaya khusus untuk jurnal yang terdaftar. Selain itu, para peninjau secara salah mengidentifikasi 14% dari abstrak artikel asli sebagai buatan AI.
“Peninjau menunjukkan bahwa sangat sulit untuk membedakan keduanya,” tulis para peneliti studi di pra-cetak. Saat mereka menyortir abstrak, pengulas mencatat bahwa menurut mereka sampel yang dihasilkan lebih kabur dan lebih formula. Tetapi sekali lagi, menerapkan asumsi itu menghasilkan tingkat akurasi yang cukup buruk—yang akan menghasilkan nilai gagal di sebagian besar kelas sains.
“Peninjau kami tahu bahwa beberapa abstrak yang mereka berikan adalah palsu, jadi mereka sangat curiga,” kata ketua peneliti, Catherine Gao, seorang ahli paru di sekolah kedokteran Northwestern, dalam pernyataan pers universitas. “Ini bukan seseorang yang membaca abstrak di alam liar. Fakta bahwa peninjau kami masih melewatkan 32% hasil buatan AI berarti abstrak ini sangat bagus. Saya curiga jika seseorang baru saja menemukan salah satu abstrak yang dihasilkan ini, mereka belum tentu dapat mengidentifikasinya sebagai yang ditulis oleh AI.
Selain menjalankan abstrak oleh peninjau manusia, penulis studi juga memasukkan semua sampel, asli dan palsu, melalui detektor output AI. Detektor otomatis berhasil, secara rutin menetapkan skor yang jauh lebih tinggi (menunjukkan kemungkinan generasi AI yang lebih tinggi) ke abstrak ChatGPT daripada yang asli. Detektor AI berhak menilai semua kecuali dua dari abstrak asli sebagai mendekati 0% palsu. Namun, dalam 34% kasus yang dihasilkan AI, sampel yang dipalsukan diberi skor di bawah 50 dari 100—menunjukkan bahwa ia masih berjuang untuk mengklasifikasikan abstrak palsu dengan rapi.
Bagian dari apa yang membuat abstrak ChatGPT begitu meyakinkan adalah kemampuan AI untuk mereplikasi skala, catat pra-cetak. Penelitian medis bergantung pada ukuran sampel dan jenis penelitian yang berbeda menggunakan jumlah subjek yang sangat berbeda. Abstrak yang dihasilkan menggunakan ukuran kohort pasien yang serupa (tetapi tidak identik) dengan aslinya, tulis penulis penelitian. “Untuk studi tentang hipertensi, yang umum, ChatGPT melibatkan puluhan ribu pasien dalam kohort, sementara studi tentang cacar monyet memiliki jumlah peserta yang jauh lebih kecil,” kata pernyataan pers tersebut.
Studi baru memiliki keterbatasan. Pertama, ukuran sampel dan jumlah pengulasnya kecil. Mereka hanya menguji satu detektor keluaran AI. Dan para peneliti tidak menyesuaikan permintaan mereka untuk mencoba menghasilkan pekerjaan yang lebih meyakinkan saat mereka pergi—ada kemungkinan bahwa dengan pelatihan tambahan dan permintaan yang lebih terarah, abstrak yang dihasilkan ChatGPT bisa lebih meyakinkan. Yang merupakan prospek yang mengkhawatirkan di lapangan yang dilanda pelanggaran.
Sudah, apa yang disebut “pabrik kertas” adalah masalah dalam penerbitan akademik. Organisasi nirlaba ini memproduksi artikel jurnal secara massal—sering kali berisi data yang dijiplak, palsu, atau tidak benar—dan menjual kepenulisan kepada penawar tertinggi sehingga pembeli dapat mengisi CV mereka dengan kredibilitas penelitian yang dipalsukan. Kemampuan untuk menggunakan AI untuk menghasilkan pengiriman artikel dapat membuat industri penipuan menjadi lebih menguntungkan dan produktif. “Dan jika orang lain mencoba membangun sains mereka dari studi yang salah ini, itu bisa sangat berbahaya,” tambah Gao dalam pernyataan berita.
Untuk menghindari kemungkinan masa depan di mana disiplin ilmu dibanjiri publikasi palsu, Gao dan rekan penelitinya merekomendasikan agar jurnal dan konferensi menjalankan semua pengiriman melalui deteksi keluaran AI.
Tapi itu tidak semua berita buruk. Dengan membodohi peninjau manusia, ChatGPT telah dengan jelas menunjukkan bahwa ia dapat menulis dengan mahir dalam gaya ilmuwan akademis. Jadi, mungkin saja teknologi tersebut dapat digunakan oleh peneliti untuk meningkatkan keterbacaan karya mereka—atau sebagai alat bantu penulisan untuk meningkatkan kesetaraan dan akses bagi peneliti yang menerbitkan di luar bahasa ibu mereka.
“Teknologi teks generatif memiliki potensi besar untuk mendemokratisasi sains, misalnya mempermudah ilmuwan yang tidak berbahasa Inggris untuk berbagi karya mereka dengan komunitas yang lebih luas,” kata Alexander Pearson, penulis studi senior dan ilmuwan data di University of Chicago , dalam pernyataan pers. “Pada saat yang sama, sangat penting bagi kami untuk berpikir dengan hati-hati tentang praktik terbaik untuk digunakan.”