Google 推出Gemini Embedding 2(其首款原生支持多模态的嵌入模型)
Gemini Embedding 2 是我们首个原生多模态嵌入模型,能把文本、图像、视频、音频和文档映射到同一嵌入空间,从而实现不同媒体间的统一检索和分类功能,并能在 100 多种语言中理解语义意图。
这大大简化了复杂的处理流程,并提升了多种多模态应用的效果——例如用于检索增强生成(RAG)、语义搜索、情感分析和数据聚类等任务。
由于不再局限于单一模态处理,该模型能原生识别交错的多模态输入,因此可在一次请求中同时输入图像和文本等多种数据。由此模型能把握不同媒体类型之间复杂而微妙的关联,更准确地理解真实世界中的复杂信息。
🗒 标签: #Google #Gemini #多模态
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
现已通过 Gemini API 和 Vertex AI 以公测形式向公众开放预览。
Gemini Embedding 2 是我们首个原生多模态嵌入模型,能把文本、图像、视频、音频和文档映射到同一嵌入空间,从而实现不同媒体间的统一检索和分类功能,并能在 100 多种语言中理解语义意图。
这大大简化了复杂的处理流程,并提升了多种多模态应用的效果——例如用于检索增强生成(RAG)、语义搜索、情感分析和数据聚类等任务。
• 文本:支持最多 8192 个输入tokens的广泛上下文环境
• 图像:每次请求最多可处理 6 张,支持 PNG 和 JPEG 格式
• 视频:支持最多 120 秒的 MP4 或 MOV 格式视频输入
• 音频:可以直接接收并生成音频的嵌入向量,无需先把音频转成文本
• 文档:直接嵌入最多 6 页的 PDF 文件
由于不再局限于单一模态处理,该模型能原生识别交错的多模态输入,因此可在一次请求中同时输入图像和文本等多种数据。由此模型能把握不同媒体类型之间复杂而微妙的关联,更准确地理解真实世界中的复杂信息。