快捷导航
关于我们
机械自动化
机械百科
联系我们

联系我们:

0431-81814565
13614478009

地址:长春市高新开发区超越大街1188号
传真:0431-85810581
信箱:jltkxs@163.com

机械自动化

DeepSeek开源的新工具到底强正在哪?我帮你找专家

发布时间:2025-11-07 16:05

  

  正在 DeepSeek-OCR 的架构中,图像不再只是文字的载体,而是成为一种语义压缩的两头言语。文字被衬着成图像后,经由 DeepEncoder 转换为紧凑的视觉表征;这些视觉 token 既能够通过 DeepSeek 3B-MoE 模子还原为原始文本(这也是尺度的 OCR 机制),也能够取其他输入 token 取 prompt 连系,施行问答、摘要、检索等复杂使命。通俗来说,就是我们能够把大量文字打包压缩成一张图片来节流空间,等需要利用的时候再解压出来,以至正在一部门利用场景中,你以至不需要解压,间接用压缩包就能够告竣目标。即便正在 10× 压缩比的前提下,模子的文本还原精度仍可达 97%。跟着大模子逐步向越来越复杂的场景嵌入,上下文长度资本远不敷用以至越来越不敷用,DeepSeek-OCR 的发布霎时带来很大的想象空间。研究团队以至还进一步提出 “ 遗忘机制 ” 的构思,正在视觉压缩阶段自动衰减细节,从而实现一品种人回忆式的上下文办理。那么,视觉 token 为何能正在消息量不丧失太多的环境下,比文本 token 少一个数量级?模子回忆可否完全用视觉逻辑来替代?DeepSeek-OCR 能否为处理大模子上下文长度受限的问题供给了一条现实可行的路子?DeepSeek-OCR 反映了多模态大模子的什么成长趋向?带着这些问题,知危取 Sand。ai 结合创始人、首席科学家、《 Swin Transformer 》做者张拯进行了简单的对话。统一段输入,为什么视觉 token 能够比文本 token 的数量少得多,有没有曲不雅或素质的注释?第二种,高效的缘由不是视觉 v。s。 文本,而是两边采用的 token 表达体例分歧:做视觉表达的时候,我们是正在一个高维的持续空间中做消息压缩( 把 image patch 映照为一个高维特征 ),之前 LLM 里常用的 tokenizer( 把文本数据向量化的东西,通俗理解是一种把天然言语翻译为机械能理解的言语的东西 )则现实上能够被认为是正在一个一维空间中做压缩( 把文本映照为 id )。高维持续空间本来就有更好的表达能力,因而能够用更少的 token 数量来表达更多消息。其实文本也能够做成持续表达,来大幅度削减文本 token,可是目前该当没有被很普遍地用到 LLM 里。我比来没有出格研究过 OCR 模子的进展,但基于我看过的一些消息,我感觉 DeepSeek-OCR 的手艺本身仿佛并没有很是出格的部门。可是正在概念上,这个 idea 仍是很棒的。这个 idea 上的意义,相较于现正在的多模态模子,DeepSeek-OCR 会利用两种分歧的 tokenizer 机制,这种线也许会更好的多模态模子设想方案。这项手艺对于根本模子上下文长度难以扩展的当下,能够带来多大的成本效益?对上下文工程的优化有哪些益处?理论上最多能拿到 N^2 倍的收益,N 是 Vision Token 相较于 Text Token 的压缩率。对于上下文工程的优化,最大的益处该当就是不消那么细心地办理上下文长度了。这种设想必定仍是很初步的,可是也能脑洞出良多改良的空间,好比语义主要的部门能够衬着成更大的字体?Andrej Karpathy 认为视觉 token 有潜力能够完全替代文本 token,由于消息压缩、多模态、可双向留意力处置、您怎样看?大部门都同意,可是 “ 可双向留意力处置 ” 这里有待切磋,“ 可双向留意力处置 ” 很大程度上和 training objective( 锻炼方针 )相关。别的,若是后面都是处置视觉 token 了,是不是无机会让模子能正在一个 2D 的空间里做思虑?从而带来更高效的推理( 雷同 GPT-4o 的 thinking with image )?这个我感觉仍是挺成心思的。知危:近期 Meta 也提出了一个无需 tokenizer 的模子架构 Byte Latent Transformer ,能够跳过 tokenization ,间接进修原始字节省。连系以上会商和范畴现状,您认为这表现了多模态大模子的哪些成长趋向?当模子的 “ 思虑空间 ” 从一维文本拓展至二维视觉,思虑和推理也可能变得愈加高效和简练。而正在手艺层面,则指向当前多模态大模子范畴正期待一把 “ 奥卡姆剃刀 ” 简化模子范式的时辰。