Nano Omni是首个“生产级开放模型”,专为构建可扩展AI Agent设计,支持长上下文、多步骤推理以及工具调用等能力。该模型还引入GUI训练数据,使AI可以理解和操作界面元素
英伟达在公司博客宣布,推出名为Nemotron 3 Nano Omni的全新开源模型,主打“原生全模态理解+高效推理”,试图为企业级AI Agent提供一体化基础模型底座。
据英伟达介绍,已有一批AI与软件领域的公司率先采用了Nemotron 3 Nano Omni,包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康、H Company、Palantir 和 Pyler。此外,戴尔、DocuSign、Infosys、K-Dense、Lila、甲骨文和 Zefr 正在对该模型进行评估。
不同于传统多模态模型通常通过拼接多个子模型实现能力融合,Nemotron 3 Nano Omni强调“原生全模态(omni-understanding)”。其可同时处理文本、图像、音频甚至视频输入,并在统一架构内完成理解与推理任务。
英伟达还指出,该模型具备从视频和文档中提取信息的能力,支持复杂场景下的跨模态推理,例如通过语音转录增强视频理解,或结合OCR解析视觉文本内容。