Dari Kata ke Gambar, DeepSeek Ubah Paradigma Cara AI Memahami Bahasa

October 27, 2025

Perusahaan Artificial Intelligence (AI) asal Tiongkok kembali menunjukkan inovasinya.

Inovasi kali ini datang dari DeepSeek yang baru saja meluncurkan DeepSeek-OCR. Ini adalah model AI tipe Optical Character Recognition (OCR) yang mengubah cara komputer memahami teks secara harfiah.

Alih-alih membaca teks sebagai kumpulan kata atau token seperti model bahasa besar (LLM) lain, DeepSeek mengonversi teks menjadi gambar sebelum diproses oleh AI. Langkah itu bukan sekadar trik teknis, tetapi sebuah perubahan cara pandang terhadap bagaimana mesin memahami bahasa.

Teks Jadi Gambar, Efisiensi Naik Sepuluh Kali Lipat

Pendekatan baru itu menghasilkan efisiensi yang mengejutkan. Berdasarkan uji coba awal, setiap 10 token teks kini dapat direpresentasikan hanya dengan 1 “vision token” dengan tingkat akurasi mencapai 97 persen.

Bahkan, saat kompresi gambar ditingkatkan hingga 20 kali, model ini masih mempertahankan akurasi sekitar 60 persen. Artinya, AI buatan DeepSeek itu mampu menyimpan dan memahami hingga sepuluh kali lebih banyak informasi dalam ruang yang sama.

Implikasi inovasi DeepSeek ini pun sangat besar. Contohnya, AI mampu membaca dan menganalisis laporan perusahaan atau dokumen ribuan halaman tanpa perlu dipecah menjadi potongan kecil seperti biasanya.

Inovasi itu langsung menarik perhatian banyak tokoh terkemuka di dunia AI termasuk Andrej Karpathy (Salah Satu pendiri OpenAI). Karpathy mengatakan pendekatan berbasis visual jauh lebih alami bagi mesin, karena data gambar memiliki konteks spasial. Hal ini mirip cara manusia mengingat sesuatu melalui asosiasi bentuk, ruang, dan warna.

“Mungkin lebih masuk akal jika semua input ke LLM justru berupa gambar. Untuk teks murni, lebih efisien jika kita merender-nya menjadi gambar dan memberikannya ke model,” tulis Karpathy di platform X (Twitter) seperti dikutip Fortune.

Dampak DeepSeek OCR untuk Dunia Bisnis

Bagi dunia bisnis, inovasi itu berpotensi menjadi game changer. Selama ini, model LLM terbatas oleh jumlah token yang bisa diproses secara bersamaan. Akibatnya, pengguna sering kali harus “memberi makan” dokumen ke AI secara bertahap.

Dengan teknologi DeepSeek, AI bisa memproses ribuan dokumen sekaligus (bahkan seluruh sistem pengetahuan perusahaan) dalam satu konteks besar. Hasilnya, analisis data bisa dilakukan secara utuh, cepat, dan hemat biaya tanpa perlu sistem pencarian dokumen yang rumit.

“Bayangkan kamu bisa memasukkan semua dokumen internal perusahaan ke dalam satu prompt dan menyimpannya sebagai cache. Setelah itu, Anda tinggal menambahkan pertanyaan spesifik tanpa perlu sistem pencarian tambahan,” ujar Jeffrey Emanuel, pengamat teknologi AI.

Emanuel mengatakan cara yang sama juga bisa diterapkan pada pengembangan perangkat lunak. “AI dapat mengingat seluruh codebase perusahaan dan hanya perlu diperbarui saat ada perubahan kecil tanpa mengulang proses dari awal,” ujarnya.

Lebih jauh lagi, pendekatan DeepSeek membuka kemungkinan baru dalam cara AI menyimpan dan mengaitkan pengetahuan.

Dengan memvisualisasikan teks, AI berpotensi mengembangkan bentuk “ingatan spasial” seperti memory palace. Memory palace sendiri adalah metode mengingat informasi dengan bantuan asosiasi ruang dan gambar, yang sudah digunakan manusia sejak zaman kuno.

Keterbatasan DeepSeek OCR

Meski begitu, penelitian DeepSeek saat ini masih berfokus pada efisiensi penyimpanan dan rekonstruksi data, belum pada kemampuan penalaran AI terhadap token visual. Beberapa tantangan teknis, seperti perbedaan resolusi dan variasi warna pada data gambar, juga masih perlu diatasi.

Akan tetapi, ide bahwa mesin bisa “melihat” teks untuk memahami maknanya merupakan lompatan paradigma dalam dunia AI. Jika sebelumnya AI hanya bisa membaca, kini ia mulai melihat dan menafsirkan bahasa secara visual dan hasilnya jauh lebih efisien.

Seperti pepatah lama mengatakan, “Sebuah gambar bernilai seribu kata.” Namun bagi DeepSeek, tampaknya satu gambar bisa berarti jutaan kata.

Google Cloud Next ’26, Akselerasi Transformasi ke Era AI Agentic

April 23, 2026

Google Cloud resmi memperkenalkan Gemini Enterprise Agent Platform dalam ajang Google Cloud Next ’26 di Las Vegas. Peluncuran ini bukan sekadar pembaruan produk, melainkan sinyal kuat pergeseran paradigma industri: dari sekadar penggunaan AI generatif menuju era Agentic Enterprise.

Mengapa CIO Harus Menjadi Arsitek Utama Transformasi AI?

April 23, 2026

Di tengah hiruk-pikuk adopsi kecerdasan buatan (AI), banyak organisasi beranggapan mengotomatisasi proses bisnis sudahlah cukup. Padahal, sering kali proses yang

CIO Harus Berhenti Mengejar Tren, Fokus Strategi AI

April 22, 2026

Banyak perusahaan terjebak dalam pola pikir “asal ada AI”. Doug Gilbert (CIO dan Chief Digital Officer Sutherland) mencatat bahwa implementasi AI saat ini memiliki tingkat kegagalan hingga 90 persen.

Dari Kata ke Gambar, DeepSeek Ubah Paradigma Cara AI Memahami Bahasa

Teks Jadi Gambar, Efisiensi Naik Sepuluh Kali Lipat

Dampak DeepSeek OCR untuk Dunia Bisnis

Keterbatasan DeepSeek OCR

Baca Juga

Google Cloud Next ’26, Akselerasi Transformasi ke Era AI Agentic

Mengapa CIO Harus Menjadi Arsitek Utama Transformasi AI?

CIO Harus Berhenti Mengejar Tren, Fokus Strategi AI

Follow Us

Newsletter

Dari Kata ke Gambar, DeepSeek Ubah Paradigma Cara AI Memahami Bahasa

Teks Jadi Gambar, Efisiensi Naik Sepuluh Kali Lipat

Dampak DeepSeek OCR untuk Dunia Bisnis

Keterbatasan DeepSeek OCR

Baca Juga

Google Cloud Next ’26, Akselerasi Transformasi ke Era AI Agentic

Mengapa CIO Harus Menjadi Arsitek Utama Transformasi AI?

​CIO Harus Berhenti Mengejar Tren, Fokus Strategi AI

CIO Harus Berhenti Mengejar Tren, Fokus Strategi AI