Pelatihan ChatGPT AI Membutuhkan 185.000 Galon Air: Belajar

Model bahasa besar populer (LLM) seperti ChatGPT OpenAI dan Bard Google sangat intensif energi, membutuhkan peternakan server besar untuk menyediakan data yang cukup untuk melatih program yang kuat. Mendinginkan pusat data yang sama juga membuat AI chatbot sangat haus. Penelitian baru menunjukkan pelatihan untuk GPT-3 saja menghabiskan 185.000 galon (700.000 liter) air. Percakapan rata-rata pengguna dengan ChatGPT pada dasarnya sama dengan membuang sebotol besar air segar ke tanah, menurut studi baru. Mengingat popularitas chatbot yang belum pernah terjadi sebelumnya, para peneliti khawatir semua botol yang tumpah itu dapat mengganggu pasokan air, terutama di tengah kekeringan bersejarah dan ketidakpastian lingkungan yang menjulang di AS.

Obrolan GPT-4 Layak Ditingkatkan? | Teknologi Masa Depan

Para peneliti dari University of Colorado Riverside dan University of Texas Arlington menerbitkan perkiraan konsumsi air AI dalam makalah pra-cetak berjudul “Membuat AI Kurang ‘Haus.’” Para penulis menemukan jumlah air tawar jernih yang diperlukan untuk melatih GPT-3 adalah setara dengan jumlah yang dibutuhkan untuk mengisi menara pendingin reaktor nuklir. OpenAI belum mengungkapkan lamanya waktu yang diperlukan untuk melatih GPT-3, memperumit perkiraan para peneliti, tetapi Microsoft, yang telah menjalin kemitraan multi-miliar dolar dengan startup AI dan membangun superkomputer untuk pelatihan AI, berkata bahwa superkomputer terbarunya, yang membutuhkan peralatan pendingin ekstensif, berisi 10.000 kartu grafis dan lebih dari 285.000 inti prosesor, memberikan gambaran sekilas tentang skala besar operasi di balik kecerdasan buatan. Galon dalam jumlah besar itu dapat menghasilkan sel baterai untuk 320 Tesla, atau, dengan kata lain, ChatGPT, yang muncul setelah GPT-3, perlu “meminum” botol air 500 mililiter untuk menyelesaikan pertukaran dasar dengan pengguna terdiri dari sekitar 25-50 pertanyaan.

Jumlah galon yang sangat besar yang diperlukan untuk melatih model AI juga mengasumsikan bahwa pelatihan tersebut terjadi di pusat data AS yang canggih milik Microsoft, yang dibangun khusus untuk OpenAI hingga puluhan juta. Jika data dilatih di pusat data perusahaan di Asia yang kurang hemat energi, laporan mencatat konsumsi air bisa tiga kali lebih tinggi. Para peneliti berharap kebutuhan air ini hanya akan meningkat lebih jauh dengan model yang lebih baru, seperti GPT-4 yang baru dirilis, yang mengandalkan kumpulan parameter data yang lebih besar daripada pendahulunya.

“Jejak air model AI tidak bisa lagi berada di bawah radar,” kata para peneliti. “Jejak air harus ditangani sebagai prioritas sebagai bagian dari upaya kolektif untuk memerangi tantangan air global.”

Bagaimana chatbots menggunakan air?

Saat menghitung konsumsi air AI, para peneliti membedakan antara “penarikan” air dan “konsumsi”. Contoh pertama adalah praktik pemindahan air secara fisik dari sungai, danau, atau sumber lain, sementara konsumsi mengacu pada hilangnya air melalui penguapan saat digunakan di pusat data. Penelitian tentang penggunaan air AI berfokus terutama pada bagian konsumsi dari persamaan tersebut, di mana air tidak dapat didaur ulang.

Siapa pun yang menghabiskan beberapa detik di ruang server perusahaan tahu bahwa Anda perlu mengemas sweter terlebih dahulu. Ruang server tetap dingin, biasanya antara 50 dan 80 derajat Fahrenheit untuk mencegah kerusakan peralatan. Mempertahankan suhu ideal itu merupakan tantangan konstan karena server itu sendiri mengubah energi listriknya menjadi panas. Menara pendingin seperti yang ditunjukkan di bawah ini sering digunakan untuk mencoba dan menangkal panas itu dan menjaga suhu ruangan tetap ideal dengan menguapkan air dingin.

Menara Pendingin Evaporatif dalam Proses Pusat Data

Menara pendingin menyelesaikan pekerjaan, tetapi mereka membutuhkan air dalam jumlah besar untuk melakukannya. Para peneliti memperkirakan sekitar satu galon air dikonsumsi untuk setiap kilowatt-jam yang dihabiskan di pusat data rata-rata. Tidak sembarang jenis air juga bisa digunakan. Pusat data diambil dari sumber air tawar yang bersih untuk menghindari korosi atau pertumbuhan bakteri yang dapat muncul bersama air laut. Air tawar juga penting untuk mengontrol kelembapan di dalam kamar. Para peneliti juga meminta pertanggungjawaban pusat data atas air yang dibutuhkan untuk menghasilkan listrik dalam jumlah besar yang mereka konsumsi, sesuatu yang oleh para ilmuwan disebut “konsumsi air tidak langsung di luar lokasi”.

Gambar pusat data Google

Masalah konsumsi air tidak terbatas pada model OpenAI atau AI. Pada 2019, Google meminta lebih dari 2,3 miliar galon air untuk pusat data hanya di tiga negara bagian. Perusahaan saat ini memiliki 14 pusat data yang tersebar di seluruh Amerika Utara yang digunakan untuk memberdayakan Google Penelusuran, rangkaian produk tempat kerja, dan baru-baru ini, model bahasa besar LaMDa dan Bard. LaMDA saja, menurut makalah penelitian baru-baru ini, dapat membutuhkan jutaan liter air untuk berlatih, lebih besar dari GPT-3 karena beberapa pusat data Google yang haus ditempatkan di negara bagian yang panas seperti Texas; peneliti mengeluarkan peringatan dengan estimasi ini, menyebutnya sebagai “titik referensi perkiraan.”

Selain air, LLM baru juga membutuhkan listrik yang sangat besar. Laporan Stanford AI yang dirilis minggu lalu melihat perbedaan konsumsi energi di antara empat model AI terkemuka, memperkirakan GPT-3 OpenAI melepaskan 502 metrik ton karbon selama pelatihannya. Secara keseluruhan, energi yang dibutuhkan untuk melatih GPT-3 dapat menggerakkan rumah rata-rata orang Amerika selama ratusan tahun.

“Perlombaan pusat data untuk mengikuti semua itu cukup panik,” kata CEO Critical Facilities Efficiency Solution Kevin Kent dalam sebuah wawancara dengan Time. “Mereka tidak selalu dapat membuat pilihan yang paling ramah lingkungan.”

Perubahan iklim dan kekeringan yang memburuk dapat meningkatkan kekhawatiran atas penggunaan air AI

Sudah, Forum Ekonomi Dunia memperkirakan sekitar 2,2 juta penduduk AS kekurangan air dan pipa dasar dalam ruangan. 44 juta lainnya hidup dengan sistem air yang “tidak memadai”. Para peneliti khawatir kombinasi perubahan iklim dan peningkatan populasi AS akan membuat angka tersebut semakin buruk pada akhir abad ini. Pada tahun 2071, Stanford memperkirakan hampir separuh dari 204 cekungan air tawar di negara itu tidak akan mampu memenuhi kebutuhan air bulanan. Banyak daerah dilaporkan dapat melihat persediaan air mereka berkurang sepertiga dalam 50 tahun ke depan.

Meningkatnya suhu yang sebagian dipicu oleh aktivitas manusia telah mengakibatkan Amerika Barat mencatat kekeringan terburuk dalam 1.000 tahun yang juga mengancam air tawar, meskipun hujan banjir baru-baru ini telah membantu mencegah beberapa kekhawatiran yang mengerikan. Ketinggian air di waduk seperti Danau Mead telah surut sejauh ini sehingga memperlihatkan sisa-sisa manusia berusia puluhan tahun. Semua itu berarti permintaan air AI yang besar dan kuat kemungkinan akan menjadi titik pertikaian yang terus berkembang, terutama jika teknologi tersebut disematkan ke lebih banyak sektor dan layanan. Persyaratan data untuk LLM semakin besar, yang berarti perusahaan harus menemukan cara untuk meningkatkan efisiensi air pusat data mereka.

Para peneliti mengatakan ada beberapa cara yang relatif jelas untuk menurunkan harga air AI. Sebagai permulaan, di mana dan kapan model AI dilatih itu penting. Temperatur luar, misalnya, dapat memengaruhi jumlah air yang dibutuhkan untuk mendinginkan pusat data. Perusahaan AI secara hipotetis dapat melatih model pada tengah malam saat cuaca lebih dingin atau di pusat data dengan efisiensi air yang lebih baik untuk mengurangi air, mereka benar. Pengguna Chatbot, di sisi lain, dapat memilih untuk terlibat dengan modul selama “jam hemat air”, sama seperti otoritas kota mendorong penggunaan mesin pencuci piring di luar jam kerja. Namun, salah satu dari perubahan sisi permintaan tersebut akan membutuhkan transparansi yang lebih besar di pihak perusahaan teknologi yang membangun model ini, sesuatu yang menurut para peneliti sangat sedikit.

“Kami merekomendasikan pengembang model AI dan operator pusat data agar lebih transparan,” tulis para peneliti. “Kapan dan di mana model AI dilatih? Bagaimana dengan model AI yang dilatih dan/atau diterapkan di pusat data colocation pihak ketiga atau cloud publik? Informasi tersebut akan sangat berharga bagi komunitas riset dan masyarakat umum.”

Ingin tahu lebih banyak tentang AI, chatbots, dan masa depan pembelajaran mesin? Lihat liputan lengkap kami tentang kecerdasan buatan, atau telusuri panduan kami ke Generator Seni AI Gratis Terbaik dan Semua yang Kami Ketahui Tentang ChatGPT OpenAI.