智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

谷歌Gemini Embedding 2登场:全模态融合,开启AI嵌入技术新篇章

2026-03-11来源:快讯编辑:瑞雪

谷歌DeepMind近日宣布推出Gemini Embedding 2,这一突破性模型首次实现了文本、图像、视频、音频和文档五种媒体形式的原生多模态嵌入。通过将不同类型的数据统一映射到单一向量空间,该技术为人工智能在跨模态理解领域开辟了新路径,标志着嵌入技术从单一模态向全模态融合的重要跨越。

该模型支持超过100种语言的语义理解,在文本、图像和视频任务的基准测试中展现出超越现有主流模型的性能。其核心创新在于引入了原生语音处理能力,可直接将音频数据转换为嵌入向量,无需经过传统语音转文本的中间步骤。这种端到端的处理方式显著提升了语音数据的处理效率,同时保留了原始音频中的情感、语调等非文本信息。

在技术架构层面,Gemini Embedding 2基于成熟的Gemini框架扩展而来。输入处理能力覆盖多种媒体类型:文本支持最长8192个token;图像可同时处理6张PNG或JPEG格式图片;视频支持最长120秒的MP4/MOV文件;文档则可直接嵌入最多6页的PDF内容。更值得关注的是,模型支持交错输入模式,允许开发者在单次请求中组合多种媒体类型,从而捕捉不同形式数据间的复杂语义关联。

针对企业级应用场景,该模型提供了灵活的向量维度配置选项。开发者可根据实际需求选择3072、1536或768三档输出维度,在模型性能与存储成本间取得平衡。这项特性对于需要处理海量嵌入向量的企业尤为重要,例如构建多模态检索增强生成系统时,可在保证精度的前提下显著降低基础设施开销。

在技术实现上,模型延续了谷歌自主研发的Matryoshka表示学习技术。该技术通过动态压缩向量维度的"嵌套"机制,使输出维度可根据应用场景灵活调整。这种创新设计既保持了高维向量的表达能力,又通过维度缩减优化了存储效率,特别适用于需要大规模部署嵌入向量的商业场景。

目前,Gemini Embedding 2已通过Gemini API和Vertex AI平台开放公开预览。早期访问合作伙伴正在探索其在多模态语义搜索、数据分类等领域的实际应用,部分用例已展现出显著的技术优势。随着更多开发者接入该模型,预计将催生出更多创新应用场景,推动人工智能在跨模态理解领域的技术演进。

拯救者Y700五代官宣3月18日发布!骁龙8Elite+9000mAh,LCD党游戏新选择
亓言纪语:对于拯救者Y700,亓纪的想法是这样的:虽然其他厂商也加入了旗舰小平板市场,但是产品定位和发力的方向还是有所不同,比如红魔的优势是OLED屏幕,红米主打天玑旗舰芯片和小直屏,华为小平板定位5G网络…

2026-03-11

荣耀Magic V6折叠屏手机来袭:轻薄设计大电池,AI生态养虾新体验
荣耀Magic V6支持AI灵感帮拍,并升级智能构图功能。 在AI方面,荣耀Magic V6支持AI会议参谋,提供专业的纪要模板,主要内容一目了然。同时支持系统内外同录、多语言实时转写和智能会议提醒,“YOY…

2026-03-11

华为何刚力荐鸿蒙小艺Claw:办公创作好帮手,四种人格超有趣
#华为何刚晒鸿蒙手机小艺Claw# …

2026-03-11

荣耀阿莱强强联合!跨界研发影像技术,荣耀新机或成行业新标杆
作为全球知名的专业影视设备品牌,阿莱在光学镜头、色彩科学、影像调校等方面拥有深厚的技术积淀与行业话语权,其专业影像方案被广泛应用于电影、纪录片等专业影视创作领域。 双方将围绕手机影像的光学硬件、底层算法、色…

2026-03-11

苹果智能家居显示屏或秋季亮相,Siri AI更新成关键,多设备同步升级
我们一直在传闻的“带屏幕的HomePod”原本计划在2025年推出,随后又推迟到今年春季,而根据最新消息,它现在将被推迟到今年秋季才上市。泄密者Kosutami上周在X(Twitter)上发布了此信息,今天B…

2026-03-11

IBM携手泛林聚焦亚1nm制程开发 共探High NA EUV等关键技术新突破
IT之家了解到,两家企业将结合 IBM 奥尔巴尼园区的先进研究能力和泛林的端到端工艺工具和创新技术,团队将构建并验证纳米片和纳米堆叠器件以及背面供电的完整工艺流程。我们很高兴能够扩大合作,共同应对下一阶段的…

2026-03-11