📰 本频道不定期推送科技数码类新资讯,欢迎关注!
©️ 发布的内容不代表本频道立场,和你意见不一样的话欢迎在评论区留言表达,但请注意言辞,面斥不雅。
‼️ 关联群组定期清理不活跃成员和僵尸号,误封请联系管理员。
🔗 博客: https://yummy.best
💬 群组: @GodlyGroup
📬 投稿: @GodlyNewsBot
🪧 广告合作: @yummybest_bot.
©️ 发布的内容不代表本频道立场,和你意见不一样的话欢迎在评论区留言表达,但请注意言辞,面斥不雅。
‼️ 关联群组定期清理不活跃成员和僵尸号,误封请联系管理员。
🔗 博客: https://yummy.best
💬 群组: @GodlyGroup
📬 投稿: @GodlyNewsBot
🪧 广告合作: @yummybest_bot.
DeepSeek正内测识图功能
4月29日,多位用户发现DeepSeek开启图片理解功能的灰度测试。具体来看,被灰度测试选中的用户的DeepSeek首页上会出现“识图模式”入口,当光标移动到该选项时,会出现“图片理解功能内测中”的字样。记者注意到,DeepSeek研究员陈德里在其个人社交媒体上表示,“Now,we see you”(现在,我们看见你了)。(新京报)
🗒 标签: #DeepSeek
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
4月29日,多位用户发现DeepSeek开启图片理解功能的灰度测试。具体来看,被灰度测试选中的用户的DeepSeek首页上会出现“识图模式”入口,当光标移动到该选项时,会出现“图片理解功能内测中”的字样。记者注意到,DeepSeek研究员陈德里在其个人社交媒体上表示,“Now,we see you”(现在,我们看见你了)。(新京报)
DeepSeek 已将deepseek-v4-pro 模型 2.5 折的优惠期,延长至北京时间 2026/05/31 23:59
https://api-docs.deepseek.com/zh-cn/quick_start/pricing
OpenClaw 已将 DeepSeek 最新的 V4 Flash 设为其热门 AI 代理的默认模型。
在周日的更新中,OpenClaw 表示已将目录扩展至包含 DeepSeek 的 V4 Flash 和旗舰 V4 Pro,并把 Google Meet 等功能整合进其代理。同时,OpenClaw 优化了 DeepSeek V4 模型在执行多步骤任务时保持一致性的能力。
其中 V4 Pro 拥有 1.6 万亿参数,成为该公司有史以来参数量最大的模型,而较小的 V4 Flash 模型则有 2840 亿参数。
DeepSeek 周五表示,其 V4 模型已为主流代理工具优化,包括 Anthropic 的 Claude Code、OpenClaw 以及腾讯的 CodeBuddy。
https://api-docs.deepseek.com/zh-cn/quick_start/pricing
V4-Pro在Agent能力、世界知识和推理性能上达到开源领先水平,可比肩顶级闭源模型;V4-Flash参数更小,速度更快、成本更低。
DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文,两个版本均大幅降低了对计算和显存的需求。
API服务同步上线,开发者将model参数修改为deepseek-v4-pro或deepseek-v4-flash即可调用,接口兼容OpenAI ChatCompletions与Anthropic两套标准。
DeepSeek同时披露,受限于高端算力供给,Pro版本当前服务吞吐十分有限,预计下半年随华为昇腾950超节点批量上市后,Pro版本价格将大幅下调。
值得注意的是,昇腾CANN将在今晚7点直播DeepSeek V4在昇腾平台的首发。
传梁文锋内部发声,DeepSeek V4将于4月下旬发布
据多位知情人士向媒体透露,DeepSeek创始人梁文锋近日在内部沟通中透露,DeepSeek新一代旗舰大模型DeepSeek V4将于4月下旬正式发布。
近期,DeepSeek 网页端悄然上线了“快速模式”和“专家模式”两种交互模式,支持简洁搜索和长程、复杂问题处理,引发业内对于V4模型发布的猜测。相关消息显示,DeepSeek V4不仅将带来万亿参数规模和百万级上下文窗口,更首次实现与华为昇腾等国产芯片的深度适配,标志着中国AI产业在“去CUDA化”道路上迈出的关键一步。
有外媒报道称,为迎接V4发布,阿里巴巴、字节跳动、腾讯等国内科技巨头已预订数十万片新一代AI算力芯片,计划通过云服务提供DeepSeek新模型,并将其集成到自身AI产品中。受此影响,新AI芯片产品近期价格已上涨约 20%。
截至发稿,DeepSeek方面并未回应新浪科技问询。
🗒 标签: #DeepSeek #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
据多位知情人士向媒体透露,DeepSeek创始人梁文锋近日在内部沟通中透露,DeepSeek新一代旗舰大模型DeepSeek V4将于4月下旬正式发布。
近期,DeepSeek 网页端悄然上线了“快速模式”和“专家模式”两种交互模式,支持简洁搜索和长程、复杂问题处理,引发业内对于V4模型发布的猜测。相关消息显示,DeepSeek V4不仅将带来万亿参数规模和百万级上下文窗口,更首次实现与华为昇腾等国产芯片的深度适配,标志着中国AI产业在“去CUDA化”道路上迈出的关键一步。
有外媒报道称,为迎接V4发布,阿里巴巴、字节跳动、腾讯等国内科技巨头已预订数十万片新一代AI算力芯片,计划通过云服务提供DeepSeek新模型,并将其集成到自身AI产品中。受此影响,新AI芯片产品近期价格已上涨约 20%。
截至发稿,DeepSeek方面并未回应新浪科技问询。
DeepSeek又出手了?一个神秘的AI模型引起全球开发者热议
据路透社3月18日报道,一款名为“Hunter Alpha”的AI模型近日在开发者平台OpenRouter匿名上线,引发全球开发者社区关注。
该模型未标注开发者身份,但观察其性能参数与时间节点,市场猜测这可能是DeepSeek在正式发布前对其下一代系统进行的秘密测试。
Hunter Alpha于3月11日以“隐身模型”形式发布,且目前向开发者提供免费访问。测试显示,该系统具备1万亿参数规模和高达100万token的上下文窗口。
群友补充: 是小米家的
🗒 标签: #DeepSeek #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
1万亿参数、100万token上下文窗口及免费访问策略
据路透社3月18日报道,一款名为“Hunter Alpha”的AI模型近日在开发者平台OpenRouter匿名上线,引发全球开发者社区关注。
该模型未标注开发者身份,但观察其性能参数与时间节点,市场猜测这可能是DeepSeek在正式发布前对其下一代系统进行的秘密测试。
Hunter Alpha于3月11日以“隐身模型”形式发布,且目前向开发者提供免费访问。测试显示,该系统具备1万亿参数规模和高达100万token的上下文窗口。
群友补充: 是小米家的
DeepSeek提出了一种名为 mHC (流形约束超连接)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。
该架构通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。
这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中
DeepSeek宣布同时发布两个正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
官方网页端、App 和 API 均已更新为正式版 DeepSeek-V3.2。Speciale 版本目前仅以临时 API 服务形式开放,以供社区评测与研究。
DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景。
DeepSeek-V3.2 的思考模式也增加了对 Claude Code 的支持,用户可以通过将模型名改为 deepseek-reasoner,或在 Claude Code CLI 中按 Tab 键开启思考模式进行使用。但需要注意的是,思考模式未充分适配 Cline、RooCode 等使用非标准工具调用的组件,我们建议用户在使用此类组件时继续使用非思考模式。
新模型技术报告
开源地址
DeepSeek-V3.2:HuggingFace / ModelScope
DeepSeek-V3.2-Speciale: HuggingFace / ModelScope
众所周知,当前所有 LLM 处理长文本时都面临一个绕不开的困境:计算复杂度是平方级增长的。序列越长,算力烧得越狠。
于是,DeepSeek 团队想到了一个好办法。既然一张图能包含大量文字信息,而且用的 Token 还少,那不如直接把文本转成图像?这就是所谓的「光学压缩」——用视觉模态来给文本信息「瘦身」。
论文显示,DeepSeek-OCR 的压缩率能达到 10 倍,OCR 准确率还能保持在 97% 以上。
也就是说,原本需要 1000 个文本 Token 才能表达的内容,现在只用 100 个视觉 Token 就搞定了。即使压缩率拉到 20 倍,准确率也还有 60% 左右,整体效果相当能打。
DeepSeek 今日正式发布 DeepSeek-V3.2-Exp 模型,这是一个实验性(Experimental)的版本。
作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。
DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。
为了严谨地评估引入稀疏注意力带来的影响,官方特意把 DeepSeek-V3.2-Exp 的训练设置与 V3.1-Terminus 进行了严格的对齐。在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。
目前,官方 App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp。
本次更新带来了 API 大幅度降价,开发者调用 DeepSeek API 的成本将降低 50% 以上。
DeepSeek-V3.2-Exp 虽然已经在公开评测集上得到了有效性验证,但仍然需要在用户的真实使用场景中进行范围更广、规模更大的测试。为方便用户进行对比测试,官方为 V3.1-Terminus 临时保留了额外的 API 访问接口。
DeepSeek-V3.2-Exp 模型现已在 Huggingface 与魔搭开源,论文也已同步公开:
HuggingFace / ModelScope / GitHub PDF
via 匿名
知情人士向The Information透露,DeepSeek已决定使用华为的AI芯片来训练其部分模型,此举反映其正在减少对英伟达芯片的依赖。
此前,DeepSeek暗示国产芯片有望大规模使用
via 匿名
LINUXDO 网友发帖发现 DeepSeek V3.1 模型在输出中会随机出现 “极” 字,最开始在第三方 API 上出现了这个问题,火山、chutes 等第三方都可能出现这个问题。作者表示此 bug 严重影响到编程或日常使用。
作者经测试后,官网同样存在这个问题。作者表示一旦出现问题,后续会更加频繁。
作者认为,是数据集没有清理干净的问题,这也和 “极速” 等词并列出现合理。通过查看分词,作者发现 “极” 对应的 token 2577 和省略号 2576 相邻,这可能是导致该 bug 的原因。也有可能和模型偷懒有关系。但也存在部分情况无法解释。
目前结论,官网出现 “极” 字概率最低,但不是没有。第三方概率显著增加,可能和第三方量化、部署配置、设备差异相关。
via 匿名
DeepSeek暗示国产芯片有望大规模使用
8月21日晚间,杭州深度求索公司(DeepSeek)悄然于大模型资源网站HuggingFace上线 “DeepSeekV3.1” 版本。
同时,该公司宣称其模型版本使用适配国产芯片结构的参数精度,暗示国产芯片未来有望得到大规模使用。
🗒 标签: #DeepSeek #AI #芯片
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
8月21日晚间,杭州深度求索公司(DeepSeek)悄然于大模型资源网站HuggingFace上线 “DeepSeekV3.1” 版本。
同时,该公司宣称其模型版本使用适配国产芯片结构的参数精度,暗示国产芯片未来有望得到大规模使用。
DeepSeek 线上模型版本已升级至 V3.1,上下文长度拓展至 128k,可通过官方网页、APP、小程序测试,API 接口调用方式保持不变。
新版 DeepSeek 能一次性记住和处理的文本长度更长,上下文容量大提升,对长文档分析、代码库理解、长对话保持一致性都更有帮助。
不过,这只是常规更新,和大家期待已久的 R2 没关联。按照过去的经验,R2 发布前应该会先更新 V4 模型。
上周市场曾传出下一代大模型 DeepSeek-R2 将在 8 月下旬发布的消息,但消息来源并不可靠。
据接近 DeepSeek 人士透露, DeepSeek-R2 在 8 月内并无发布计划。
via 匿名
DeepSeek发布Prover-V2模型,参数量达6710亿
DeepSeek今日于AI开源社区Hugging Face上发布了一个名为DeepSeek-Prover-V2-671B的新模型。
据悉,DeepSeek-Prover-V2-671B 使用了更高效的 safetensors文件格式,并支持多种计算精度,方便模型更快、更省资源地训练和部署,参数达6710亿,或为去年发布的Prover-V1.5数学模型升级版本。
在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。
同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提高推理效率。(新浪科技)
🗒 标签: #DeepSeek #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
DeepSeek今日于AI开源社区Hugging Face上发布了一个名为DeepSeek-Prover-V2-671B的新模型。
据悉,DeepSeek-Prover-V2-671B 使用了更高效的 safetensors文件格式,并支持多种计算精度,方便模型更快、更省资源地训练和部署,参数达6710亿,或为去年发布的Prover-V1.5数学模型升级版本。
在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。
同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提高推理效率。(新浪科技)
DeepSeek官方辟谣:R2发布为假消息
针对DeepSeek将在3月17日发布下一代R2模型的传闻,DeepSeek官方企业咨询账号在用户群中回应称,“辟谣:R2发布为假消息”。(蓝鲸财经)
🗒 标签: #DeepSeek
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
针对DeepSeek将在3月17日发布下一代R2模型的传闻,DeepSeek官方企业咨询账号在用户群中回应称,“辟谣:R2发布为假消息”。(蓝鲸财经)
据《华尔街日报》的报道, 美国政府正考虑对中国人工智能初创公司 DeepSeek 采取限制措施,包括禁止其聊天机器人在政府设备上使用,因国家安全疑虑引发全球科技界高度关注。
美国政府的应对措施不仅限于内部设备。知情人士表示,官员们正在讨论另外两项可能的行动:一是禁止 DeepSeek 应用程序在美国应用商店上架,二是限制美国云服务提供商向客户提供 DeepSeek 的 AI 模型。
不过,这些讨论仍处于初步阶段,尚未敲定具体方案。
微软的人工智能大师希望独立于OpenAI。但说起来容易做起来难
微软测试由马斯克旗下xAI等向其Copilot提供支持。 微软正在尝试Anthropic、DeepSeek、Meta等的模型。(The Information)