DeepSeek开源3B 模型 DeepSeek-OCR众所周知，当前所有 LLM 处理长文本时都面临一个绕不开的困境：计算复杂度是平方级增长的

DeepSeek开源3B 模型 DeepSeek-OCR

众所周知，当前所有 LLM 处理长文本时都面临一个绕不开的困境：计算复杂度是平方级增长的。序列越长，算力烧得越狠。

于是，DeepSeek 团队想到了一个好办法。既然一张图能包含大量文字信息，而且用的 Token 还少，那不如直接把文本转成图像？这就是所谓的「光学压缩」——用视觉模态来给文本信息「瘦身」。

论文显示，DeepSeek-OCR 的压缩率能达到 10 倍，OCR 准确率还能保持在 97% 以上。

也就是说，原本需要 1000 个文本 Token 才能表达的内容，现在只用 100 个视觉 Token 就搞定了。即使压缩率拉到 20 倍，准确率也还有 60% 左右，整体效果相当能打。

🗒 标签: #DeepSeek
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot