20/10/2025 17:25

【ＡＩ】DeepSeek發布並開源新模型OCR，利用視覺模態壓縮長文本上下文

解讀

免責聲明

本內容由人工智能根據現有市場數據及新聞來源生成，僅供參考。其內容不代表《經濟通》之觀點或立場，亦不構成任何投資建議。鑒於AI生成資訊可能存在錯誤、遺漏或偏差，用戶應自行核實相關內容或諮詢專業意見後再作出投資決定。《經濟通》對因依賴本內容而導致之任何損失或損害概不負責。

核心摘要：
DeepSeek-AI團隊於2025年10月20日開源新模型DeepSeek-OCR，將長文本轉為圖像壓縮至數百視覺token，實驗顯示壓縮比10倍時OCR精度達97%，單A100顯卡日產20萬頁訓練數據。

事實要點：
▷ 單A100-40G顯卡日產超20萬頁訓練數據
▷ 壓縮比10倍時OCR精度97%（20倍時60%）
▷ 100視覺token超越GOT-OCR2.0（256 token/頁）
▷ 800視覺token優於MinerU2.0（6000 token/頁）
▷ 模型含DeepEncoder與DeepSeek3B-MoE-A570M解碼器

More ▼ Less ▲

　　《經濟通通訊社20日專訊》DeepSeek-AI團隊今日上午發布並開源新模型DeepSeek-OCR。團隊發布論文《DeepSeek-OCR：Contexts Optical Compression》，提出利用視覺模態壓縮長文本上下文的新方法，即是把長長的上下文渲染成一張圖片再餵給模型，讓原本需要數千上萬個文本token的上下文，只需幾百個視覺token就能表示，實現信息的高效壓縮。

　　據《IT之家》報道，DeepSeek-OCR由兩個部分組成：核心編碼器DeepEncoder和解碼器DeepSeek3B-MoE-A570M。DeepEncoder專為在高分辨率輸入下保持低計算激活而設計，同時實現高壓縮比，以控制視覺token數量在可管理的範圍內。

　　實驗顯示，當文本token數量不超過視覺token的10倍（壓縮比低於10x）時，模型的OCR(文字識別)精度可達97%；即便壓縮比提高到20x，準確率仍保持約60%，展現出在歷史文檔長上下文壓縮和大語言模型記憶機制研究中的巨大潛力。DeepSeek-OCR同時具備較高的實際應用價值。

　　在OmniDocBench測試中，DeepSeek-OCR使用100個視覺token就超過了階躍星晨的GOT-OCR2.0（每頁256個token），而使用不到800個視覺token便優於上海AI實驗室的MinerU2.0（平均每頁超過6000個token）。

　　在實際生產中，DeepSeek-OCR可在單塊A100-40G顯卡上每天生成超過20萬頁的大語言模型/視覺語言模型訓練數據。(sl)

貨幣攻略

要「再平衡」你的派息基金

大國博弈

京打稀土牌奏效，擊中特朗普要害

關稅戰

中美博弈升級，談判鬥而不破

樂本健 - 優質保健品

環球海產 - 高級海鮮產品