20/10/2025 17:25

【AI】DeepSeek發布並開源新模型OCR,利用視覺模態壓縮長文本上下文

解讀
免責聲明

本內容由人工智能根據現有市場數據及新聞來源生成,僅供參考。其內容不代表《經濟通》之觀點或立場,亦不構成任何投資建議。鑒於AI生成資訊可能存在錯誤、遺漏或偏差,用戶應自行核實相關內容或諮詢專業意見後再作出投資決定。《經濟通》對因依賴本內容而導致之任何損失或損害概不負責。

核心摘要:
DeepSeek-AI團隊於2025年10月20日開源新模型DeepSeek-OCR,將長文本轉為圖像壓縮至數百視覺token,實驗顯示壓縮比10倍時OCR精度達97%,單A100顯卡日產20萬頁訓練數據。

事實要點:
▷ 單A100-40G顯卡日產超20萬頁訓練數據
▷ 壓縮比10倍時OCR精度97%(20倍時60%)
▷ 100視覺token超越GOT-OCR2.0(256 token/頁)
▷ 800視覺token優於MinerU2.0(6000 token/頁)
▷ 模型含DeepEncoder與DeepSeek3B-MoE-A570M解碼器

  DeepSeek-AI團隊今日上午發布並開源新模型DeepSeek-OCR。團隊發布論文《DeepSeek-OCR:Contexts Optical Compression》,提出利用視覺模態壓縮長文本上下文的新方法,即是把長長的上下文渲染成一張圖片再餵給模型,讓原本需要數千上萬個文本token的上下文,只需幾百個視覺token就能表示,實現信息的高效壓縮。

  據《IT之家》報道,DeepSeek-OCR​由兩個部分組成:核心編碼器DeepEncoder和解碼器DeepSeek3B-MoE-A570M。DeepEncoder專為在高分辨率輸入下保持低計算激活而設計,同時實現高壓縮比,以控制視覺token數量在可管理的範圍內。

  實驗顯示,當文本token數量不超過視覺token的10倍(壓縮比低於10x)時,模型的OCR(文字識別)精度可達97%;即便壓縮比提高到20x,準確率仍保持約60%,展現出在歷史文檔長上下文壓縮和大語言模型記憶機制研究中的巨大潛力。DeepSeek-OCR同時具備較高的實際應用價值。

  在OmniDocBench測試中,DeepSeek-OCR使用100個視覺token就超過了階躍星晨的GOT-OCR2.0(每頁256個token),而使用不到800個視覺token便優於上海AI實驗室的MinerU2.0(平均每頁超過6000個token)。

  在實際生產中,DeepSeek-OCR可在單塊A100-40G顯卡上每天生成超過20萬頁的大語言模型/視覺語言模型訓練數據。
《經濟通通訊社20日專訊》

樂本健 x etnet健康網購 | 憑獨家優惠碼【ETN2508】,購物滿$500即送免費禮品► 了解詳情

專業版
HV2
精裝版
SV2
串流版
IQ 登入
強化版
TQ
強化版
MQ

獨家優惠【etnet x 環球海產】 用戶專享全場95折,特價貨品更可折上折,立即選購五星級酒店御用海鮮!

樂本健 x etnet健康網購 | 購物滿額即送免費禮品

etnet榮獲2024-2025年度「數碼無障礙網頁嘉許計劃」三項金獎

貨幣攻略

大國博弈

關稅戰

說說心理話

Watch Trends 2025

北上食買玩

Wonder in Art

理財秘笈

山今養生智慧

輕鬆護老

照顧者 情緒健康