Sebuah terobosan signifikan dalam efisiensi komputasi kecerdasan buatan (AI) generatif telah diumumkan oleh tim peneliti gabungan dari MIT dan Google DeepMind. Temuan ini berpotensi mengurangi jejak energi yang masif terkait dengan pelatihan dan inferensi model bahasa besar (LLM).
Model yang dinamakan 'Sparsenet-G' ini mengintegrasikan mekanisme sparsity (kepadatan rendah) yang cerdas pada lapisan perhatian (attention layers) dan menggunakan teknik kuantisasi dinamis yang lebih agresif selama tahap inferensi. Hasil perbandingan menunjukkan bahwa Sparsenet-G mampu mempertahankan skor benchmark (seperti MMLU dan HumanEval) pada tingkat yang setara dengan model sekelas GPT-4, namun dengan kebutuhan daya komputasi (FLOPs) penggunaannya berkurang secara drastis.
Dr. Anya Sharma, kepala proyek di MIT, menjelaskan bahwa tantangan utama dalam pengembangan LLM adalah mencapai keseimbangan antara kapasitas representasi dan biaya operasional. "Kami tidak hanya membuat model yang lebih kecil, tapi kami mendesain ulang bagaimana informasi mengalir di dalam jaringan. Sparsenet-G memangkas koneksi yang redundan tanpa kehilangan kapabilitas penalaran kompleks," ujarnya dalam konferensi pers virtual.
Implementasi praktis dari teknologi ini sangat menjanjikan, khususnya untuk penyebaran AI pada perangkat tepi (edge devices) dan mengurangi biaya operasional cloud provider. Jika teknologi ini diadopsi secara luas, industri AI global dapat melihat penurunan signifikan dalam konsumsi listrik tahunan yang saat ini menjadi perhatian utama para regulator lingkungan.
Langkah selanjutnya bagi tim peneliti adalah menguji skalabilitas Sparsenet-G ke triliunan parameter dan mengintegrasikannya ke dalam platform sumber terbuka untuk mendorong adopsi komunitas riset dan industri yang lebih cepat.