Telko.id – NVIDIA mengumumkan terobosan teknologi kecerdasan buatan yang memungkinkan model AI besar (model bahasa besar) menjalankan proses pemikiran (reasoning) dengan penggunaan memori pada GPU hingga delapan kali lebih rendah dibandingkan metode konvensional — namun tanpa mengorbankan hasil (akurasi).
Ini merupakan langkah penting dalam menangani salah satu tantangan terbesar dalam penerapan AI saat ini: biaya dan kebutuhan perangkat keras yang sangat tinggi.
Secara teknis, inovasi ini didasarkan pada teknik baru yang disebut Dynamic Memory Sparsification (DMS) , yang membuat AI bisa “mengelola” memori internalnya dengan lebih pintar.
Selama model AI berpikir atau menyelesaikan tugas kompleks, ia membuat semacam catatan sementara yang disebut KV cache — bagian memori ini sering menjadi penyebab utama GPU cepat penuh dan menjadi hambatan kinerja.
Dengan DMS, model dibor untuk menentukan data mana yang penting dan mana yang bisa dihapus tanpa merusak kualitas jawaban , serta menjalankan proses ini dengan penundaan singkat agar informasi penting tetap bertahan sebelum dibuang. Pendekatan semacam ini mirip dengan “perpustakawan pintar” yang tahu mana buku yang masih berguna dan mana yang bisa disimpan kembali supaya rak tetap rapi.
Baca juga:
- Nvidia Diprediksi Absen Rilis GPU Gaming Sepanjang 2026
- Intel Siapkan GPU AI, Tantang Dominasi Nvidia
Hasilnya cukup mengesankan: untuk beberapa model uji, teknologi ini tidak hanya menekan penggunaan memori GPU hingga delapan kali lipat , tetapi juga memungkinkan model untuk “berpikir lebih dalam atau lebih luas” tanpa memperlambat proses atau menurunkan akurasi jawaban.
Dalam pengujian internal, beberapa model justru menunjukkan peningkatan kinerja ketika diberi memori anggaran yang sama dengan metode tradisional.
Ini berarti bahwa satu GPU dapat melayani lebih banyak permintaan dari pengguna atau menjalankan logika AI yang lebih kompleks tanpa memerlukan perangkat keras tambahan.
Dari sudut pandang pengguna atau perusahaan yang menggunakan AI dalam skala besar — seperti layanan chatbot, asisten digital, atau sistem analitik — efisiensi baru ini memiliki dampak besar.
AWS, penyedia layanan cloud, ataupun perusahaan teknologi lain yang menawarkan solusi AI sebagai layanan dapat menekan biaya operasional secara signifikan karena kebutuhan GPU mereka berkurang. Akhirnya, ini bisa berakhir pada layanan AI yang lebih cepat, lebih murah, dan lebih hemat energi untuk pengguna akhir.
Terobosan semacam ini menunjukkan arah evolusi infrastruktur AI di masa depan: bukan hanya soal model yang semakin cerdas, tetapi juga bagaimana menjadikannya lebih efisien, terjangkau, dan praktis untuk skala besar di dunia nyata.

