英伟达推出NEMOTRON 3 NANO OMNI模型，实现视觉、音频和语言的统一，使AI智能体的效率提高至9倍Nano Omni是首个“生产级开放模型”，专为构建可扩展AI Agent设计，支持长上下文、多步骤推理以及工具调用等能力

英伟达推出NEMOTRON 3 NANO OMNI模型，实现视觉、音频和语言的统一，使AI智能体的效率提高至9倍

Nano Omni是首个“生产级开放模型”，专为构建可扩展AI Agent设计，支持长上下文、多步骤推理以及工具调用等能力。该模型还引入GUI训练数据，使AI可以理解和操作界面元素

英伟达在公司博客宣布，推出名为Nemotron 3 Nano Omni的全新开源模型，主打“原生全模态理解+高效推理”，试图为企业级AI Agent提供一体化基础模型底座。

据英伟达介绍，已有一批AI与软件领域的公司率先采用了Nemotron 3 Nano Omni，包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康、H Company、Palantir 和 Pyler。此外，戴尔、DocuSign、Infosys、K-Dense、Lila、甲骨文和 Zefr 正在对该模型进行评估。

不同于传统多模态模型通常通过拼接多个子模型实现能力融合，Nemotron 3 Nano Omni强调“原生全模态（omni-understanding）”。其可同时处理文本、图像、音频甚至视频输入，并在统一架构内完成理解与推理任务。

英伟达还指出，该模型具备从视频和文档中提取信息的能力，支持复杂场景下的跨模态推理，例如通过语音转录增强视频理解，或结合OCR解析视觉文本内容。

🗒 标签: #英伟达 #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot