BGE 系列模子自愿布以来广受社区好评。近日九游会J9,智源测度院辘集多所高校开发了多模态向量模子 BGE-VL,进一步推行了原有生态体系。
BGE-VL 在图文检索、组合图像检索等主要多模态检索任务中均取得了最好服从。BGE-VL 借助大限制合成数据 MegaPairs 测验而成。
这一盘算具备以下两大中枢上风 :
优异的可膨胀性:MegaPairs 趋附多模态表征模子、多模态大模子和大说话模子,在海量图文语料库中高效挖掘多模态三元组数据。其算法好像以极低资本握续生成各样化且高质地的多模态三元组。本次发布的版块涵盖 2600 万条样本,为多模态检索模子的测验提供了大限制、高价值的数据复古。
超卓的数据质地:相较于传统多模态数据,MegaPairs 仅需 1/70 的数据量即可齐全更优的测验服从。诈欺该合成数据,智源测验了多模态检索模子 BGE-VL,权贵莳植了多个主流多模态检索基准的性能。
BGE-VL 的时刻讲演已发布,关联数据、模子及代码资源将陆续向社区全面通达。
MegaPairs 构造
在大模子期间,信息检索需要得志东说念主们日益各样化的需求,这种需求不仅体当今用户的多模态查询输入上,也体当今对多模态信息的需求上。举例,用户可能拍摄一张汽车外不雅图,并但愿赢得该款汽车的指定信息。在这种情况下,多模态检索器需要概述交融用户的图像和文本辅导,并从多种模态的信息中检索出最关联的现实。
然则,现存的多模态检索模子通常基于单一时势的跨模态配对数据(如图像 - 文本对)进行测验,这使得它们难以处理复杂的组合模态输入。比年来,辅导微调时刻在文本检索和大说话模子等界限也曾施展了其增强多任务才能的有用性。然则,以往的多模态检索辅导数据集大多依赖东说念主工标注,罢休了大限制各样化数据的赢得。
为照管这一罢休,智源 BGE 团队革命性地建议了MegaPairs 数据合成设施。该设施通过从现存大限制图像数据集结挖掘各样的关联图像对,并诈欺开源多模态大模子和大说话模子进行自动化辅导生成,从而构建出高质地、可膨胀、泛化性强的多模态检索辅导微调数据集。团队基于 MegaPairs 的高质地数据,测验并开源多模态向量模子 BGE-VL 系列,齐全了刻下最好的多模态检索才能。
MegaPairs 建议从现存大限制图文语料库中挖掘并构造大限制、高质地多模态检索辅导数据集。
具体地,MegaPairs 的构造主要分为两个关键智商:
(1)使用多种同样度模子从图像数据集结挖掘各样的图像对;
(2)使用开源的多模态大模子和大说话模子合成通达域检索辅导。
以下图为例,MegaPairs 最先从大限制图像数据集结采样一双图像 - 文本数据看成查询数据。然后,诈欺多种图像和文本同样度模子,挖掘出多组关联图像对(举例:同款汽车的外饰与内饰、同款汽车不同涂装、同品牌汽车改日认识图等)。接着,针对这些挖掘出的图像对,MegaPairs 汲取两阶段标注设施:最先使用多模态大说话模子(MLLM)精采两张图片之间的关联相干,然后使用大说话模子(LLM)撰写最终的通达域检索辅导。
值得留神的是,MegaPairs 彻底基于开源数据集和开源模子进行自动化构建和标注。通过引入多个同样度模子和两阶段标注设施,MegaPairs 好像在无需东说念主工参与的情况下,膨胀性地生成大限制、高质地且各样化的多模态检索辅导数据集。
△MegaPairs 多模态三元数据构造经过
基于上述活水线,MegaPairs 合成了高出 2600 万条(查询图像 , 查询语句 , 方向图像)三元数据对。此外,鉴于"难负例"在测验检索模子的紧迫性,MegaPairs 关于每组挖掘的图像对数据齐考取了其他同样图片看成难负例。
BGE-VL 模子
基于 MegaPairs 合成的大限制多模态检索辅导数据集,智源 BGE 团队测验出了 3 款不同尺寸的多模态检索模子。包括基于 CLIP 架构的 BGE-VL-Base 和 BGE-VL-Large,以及基于多模态大模子架构的 BGE-VL-MLLM。团队发现,只是使用 MegaPairs 三元组数据测验,模子就在多个任务上齐全了远超以往设施的的最先性能上风。
概述多模态镶嵌任务性能弘扬
团队最先在 Massive Multimodal Embedding Benchmark(MMEB)上考据了 BGE-VL 模子的性能。MMEB 是一个概述性基准测试,涵盖了 4 大类认为 36 个不同多模态镶嵌评测任务:分类(Classification)、视觉问答(Visual Question Answering)、检索(Retrieval)和视觉定位(Visual Grounding)。
△MMEB 评测任务示例图
在零样人道能弘扬方面,BGE-VL 在 MMEB 的多个任务类型和举座评分均齐全了最优性能。更令东说念主忻悦的是,MegaPairs 并未包含 MMEB 中的绝大部分任务类型数据(举例 Classification、VQA,Grounding),却好像齐全细密的任务泛化才能。
凭证 MMEB 的拓荒,团队进一步在 MMEB 的散播内(IND)蚁集(包含 36 个评测任务中的 20 个任务)上对 BGE-VL 进行了有监督微调。实验斥逐清晰,BGE-VL 的平均性能主义比拟凯旋在 MMEB 上微调的 VLM2Vec ( LLaVA-1.6 ) 模子高出 9.1 个百分点。同期,在散播外(OOD)数据集上的平均弘扬也比两版 VLM2Vec 分袂高出 11.6% 和 7.1%。这些斥逐施展了 MegaPairs 数据的高质地和泛化才能。
组合图像检索性能
传统图像检索通常汲取"文搜图"或"图搜图"的容貌。比年来,组合图像检索看成一种新兴的图像搜索范式,允许用户同期输入图像和搜索辅导,齐全更精确的图像检索服从。这一设施被谷歌称为"下一代图像搜索范式"。
在刻下主流的组合图像检索评测集 CIRCO 上,BGE-VL 在不同模子尺寸上均权贵刷新了现存基准。大幅超越包括谷歌的 MagicLens 系列和英伟达的 MM-Embed 等对比基线。具体而言,BGE-VL-MLLM 较之前的 SOTA 模子莳植了 8.1 个百分点。此外,BGE-VL-Base 模子以不到 1/50 的参数目超越了如 MM-Embed 和 E5-V 等大模子底座的多模态检索器。这些实验斥逐有劲展示了 MegaPairs 数据的有用性。
团队还对 MegaPairs 的可膨胀性和数据质地进行了深刻测度。如图所示,一方面,跟着 MegaPairs 数据限制的增多,BGE-VL 模子弘扬出一致的性能增长趋势,施展了 MegaPairs 数据构造设施的细密可膨胀性。
另一方面,与在 37M 闭源数据上测验的 SOTA 模子 Google MagicLens 比拟,MegaPairs 仅需 1/70 的数据限制(0.5M)即可齐全权贵的性能上风,施展了 MegaPairs 数据的高效性和高质地。
△MegaPairs 可膨胀性分析:使用不同限制的 MegaPairs 数据测验 BGE-VL-base 模子在各评测基准上的性能变化趋势。虚线示意基于 CLIP-base 并在 37M MagicLens 数据集上测验的 MagicLens-B 模子的性能。BGE-VL 检索可视化斥逐
改日,智源将连接探索 MegaPairs 与更丰富的多模态检索场景趋附,进一步打造更万能通用的多模态检索器。
更多设施和实验细节请参照论文。
论文地址:https://arxiv.org/abs/2412.14475
神态主页: https://github.com/VectorSpaceLab/MegaPairs
模子地址: https://huggingface.co/BAAI/BGE-VL-MLLM-S1
* 本文系量子位获授权刊载九游会J9,不雅点仅为原作家所有这个词。