Google 推出Gemini Embedding 2（其首款原生支持多模态的嵌入模型）现已通过 Gemini API 和 Vertex AI 以公测形式向公众开放预览

Google 推出Gemini Embedding 2（其首款原生支持多模态的嵌入模型）

现已通过 Gemini API 和 Vertex AI 以公测形式向公众开放预览。

Gemini Embedding 2 是我们首个原生多模态嵌入模型，能把文本、图像、视频、音频和文档映射到同一嵌入空间，从而实现不同媒体间的统一检索和分类功能，并能在 100 多种语言中理解语义意图。

这大大简化了复杂的处理流程，并提升了多种多模态应用的效果——例如用于检索增强生成（RAG）、语义搜索、情感分析和数据聚类等任务。

• 文本：支持最多 8192 个输入tokens的广泛上下文环境
• 图像：每次请求最多可处理 6 张，支持 PNG 和 JPEG 格式
• 视频：支持最多 120 秒的 MP4 或 MOV 格式视频输入
• 音频：可以直接接收并生成音频的嵌入向量，无需先把音频转成文本
• 文档：直接嵌入最多 6 页的 PDF 文件

由于不再局限于单一模态处理，该模型能原生识别交错的多模态输入，因此可在一次请求中同时输入图像和文本等多种数据。由此模型能把握不同媒体类型之间复杂而微妙的关联，更准确地理解真实世界中的复杂信息。

🗒 标签: #Google #Gemini #多模态
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot