Perusahaan Artificial Intelligence (AI) asal Tiongkok kembali menunjukkan inovasinya.
Inovasi kali ini datang dari DeepSeek yang baru saja meluncurkan DeepSeek-OCR. Ini adalah model AI tipe Optical Character Recognition (OCR) yang mengubah cara komputer memahami teks secara harfiah.
Alih-alih membaca teks sebagai kumpulan kata atau token seperti model bahasa besar (LLM) lain, DeepSeek mengonversi teks menjadi gambar sebelum diproses oleh AI. Langkah itu bukan sekadar trik teknis, tetapi sebuah perubahan cara pandang terhadap bagaimana mesin memahami bahasa.
Teks Jadi Gambar, Efisiensi Naik Sepuluh Kali Lipat
Pendekatan baru itu menghasilkan efisiensi yang mengejutkan. Berdasarkan uji coba awal, setiap 10 token teks kini dapat direpresentasikan hanya dengan 1 “vision token” dengan tingkat akurasi mencapai 97 persen.
Bahkan, saat kompresi gambar ditingkatkan hingga 20 kali, model ini masih mempertahankan akurasi sekitar 60 persen. Artinya, AI buatan DeepSeek itu mampu menyimpan dan memahami hingga sepuluh kali lebih banyak informasi dalam ruang yang sama.
Implikasi inovasi DeepSeek ini pun sangat besar. Contohnya, AI mampu membaca dan menganalisis laporan perusahaan atau dokumen ribuan halaman tanpa perlu dipecah menjadi potongan kecil seperti biasanya.
Inovasi itu langsung menarik perhatian banyak tokoh terkemuka di dunia AI termasuk Andrej Karpathy (Salah Satu pendiri OpenAI). Karpathy mengatakan pendekatan berbasis visual jauh lebih alami bagi mesin, karena data gambar memiliki konteks spasial. Hal ini mirip cara manusia mengingat sesuatu melalui asosiasi bentuk, ruang, dan warna.
“Mungkin lebih masuk akal jika semua input ke LLM justru berupa gambar. Untuk teks murni, lebih efisien jika kita merender-nya menjadi gambar dan memberikannya ke model,” tulis Karpathy di platform X (Twitter) seperti dikutip Fortune.
Dampak DeepSeek OCR untuk Dunia Bisnis
Bagi dunia bisnis, inovasi itu berpotensi menjadi game changer. Selama ini, model LLM terbatas oleh jumlah token yang bisa diproses secara bersamaan. Akibatnya, pengguna sering kali harus “memberi makan” dokumen ke AI secara bertahap.
Dengan teknologi DeepSeek, AI bisa memproses ribuan dokumen sekaligus (bahkan seluruh sistem pengetahuan perusahaan) dalam satu konteks besar. Hasilnya, analisis data bisa dilakukan secara utuh, cepat, dan hemat biaya tanpa perlu sistem pencarian dokumen yang rumit.
“Bayangkan kamu bisa memasukkan semua dokumen internal perusahaan ke dalam satu prompt dan menyimpannya sebagai cache. Setelah itu, Anda tinggal menambahkan pertanyaan spesifik tanpa perlu sistem pencarian tambahan,” ujar Jeffrey Emanuel, pengamat teknologi AI.
Emanuel mengatakan cara yang sama juga bisa diterapkan pada pengembangan perangkat lunak. “AI dapat mengingat seluruh codebase perusahaan dan hanya perlu diperbarui saat ada perubahan kecil tanpa mengulang proses dari awal,” ujarnya.
Lebih jauh lagi, pendekatan DeepSeek membuka kemungkinan baru dalam cara AI menyimpan dan mengaitkan pengetahuan.
Dengan memvisualisasikan teks, AI berpotensi mengembangkan bentuk “ingatan spasial” seperti memory palace. Memory palace sendiri adalah metode mengingat informasi dengan bantuan asosiasi ruang dan gambar, yang sudah digunakan manusia sejak zaman kuno.
Keterbatasan DeepSeek OCR
Meski begitu, penelitian DeepSeek saat ini masih berfokus pada efisiensi penyimpanan dan rekonstruksi data, belum pada kemampuan penalaran AI terhadap token visual. Beberapa tantangan teknis, seperti perbedaan resolusi dan variasi warna pada data gambar, juga masih perlu diatasi.
Akan tetapi, ide bahwa mesin bisa “melihat” teks untuk memahami maknanya merupakan lompatan paradigma dalam dunia AI. Jika sebelumnya AI hanya bisa membaca, kini ia mulai melihat dan menafsirkan bahasa secara visual dan hasilnya jauh lebih efisien.
Seperti pepatah lama mengatakan, “Sebuah gambar bernilai seribu kata.” Namun bagi DeepSeek, tampaknya satu gambar bisa berarti jutaan kata.


