多机构研究发现,深度研究智能体在跨语言场景存在致命盲点:证据与问题语言不一致时,AI正确率从64.70%降至42.29%,检索召回率降20个百分点,且更盲目自信。即便提供翻译后的正确证据,表现仍不及英文,暴露检索与理解双重瓶颈。
这项由早稻田大学、西北大学、理化学研究所AIP中心、Snowflake公司、犹他大学、杜克-新加坡国立大学医学院及东京大学联合开展的研究,于2026年6月13日以预印本形式发布于arXiv,论文编号为arXiv:2606.15345。感兴趣的读者可以通过该编号查询完整论文。
假设你雇了一位只懂英文的私家侦探,去调查一桩案件。案件的所有关键证据——目击者证词、现场照片说明、警察记录——却全是用日文写的。这位侦探能破案吗?
长期稳定更新的攒劲资源: >>>点此立即查看<<<
这个场景,恰好就是当今最先进的AI研究助手所面临的真实困境。这些被称为“深度研究智能体”的AI系统,就像是精通搜索的机器侦探:它们会主动上网查资料,过滤筛选文件,把拼凑出的证据综合成一个完整的答案。学术界已经有了专门测试这类AI侦探能力的考题——其中最权威的一套叫做BrowseComp-Plus,里面全是需要多步骤网络搜索才能找到答案的难题,所有题目和证据文件都是英文的。
问题来了:现实世界里的信息从来都不只有一种语言。互联网上有中文、法语、日语、斯瓦希里语……当AI侦探拿着一个英文问题,却必须从日文证据里找到线索时,它还能破案吗?
这正是上述多机构研究团队想要搞清楚的问题。他们创建了一个全新的测试集——XBCP(跨语言BrowseComp-Plus,英文缩写Cross-lingual BrowseComp-Plus),专门用来测量AI系统在证据语言不同于问题语言时的表现。这是学术界首次专门针对“跨语言深度研究”场景构建的系统性评测基准,填补了这个领域长期以来的空白。
研究团队的核心思路其实很巧妙。他们没有从零开始出题,而是借用了BrowseComp-Plus已有的题库框架——这套题库有830道英文问题,配套着5040份经过人工核实的英文证据文件。研究团队要做的,是把这些证据文件“翻译成其他语言”,而问题和标准答案依然保持英文不变。
具体来说,他们选择了12种语言。高资源语言(也就是互联网上内容丰富、AI对其理解较好的语言)包括中文、英文、法文、德文、日文、韩文、葡萄牙文和西班牙文,共8种。低资源语言(互联网上内容稀少、AI掌握程度有限的语言)则选了斯瓦希里语、沃洛夫语、约鲁巴语和祖鲁语这4种非洲语言。翻译工作由GPT-5.4这个强大的翻译模型完成,翻译时要求把证据文件的标题、内容、专业术语都完整翻译,只保留网址、电子邮件地址、数学公式和代码块不变。
翻译完成后,研究团队还专门招募了专业的双语评审人员对翻译质量进行核查,采用准确性、流利度和完整性三个维度,每项满分5分,对11种非英文语言各抽取200份样本进行评分。结果显示,所有语言的平均分均在4.0分以上,说明翻译质量足以用于受控实验,尽管仍存在一些细小的翻译瑕疵。
整套XBCP测试集包含两种配置。第一种叫“跨语言设置”:每道题的证据文件被分配到某一种语言,同一道题的所有证据都是同一种语言。这样可以测试AI在面对“全日文证据”或“全法文证据”时的表现差异。第二种叫“多语言设置”:5040份证据文件被随机均分到12种语言,每种语言各分得420份,让AI同时面对混杂着各种语言的证据库。这两种设置从不同角度考察AI侦探的跨语言能力。
研究团队选择了4位“AI侦探”参与测试,分别是GPT-OSS-20B、GPT-OSS-120B、QWEN3.6-35B-A3B和DeepSeek-V4-Pro。这些名字听起来像是外星语言,但可以把它们理解为四位能力不同的侦探:数字越大、参数越多的,通常推理能力越强。
光有侦探不够,还需要搜索工具——也就是“检索器”,帮助侦探在海量文件中找到相关证据。研究团队测试了5种检索器:一种是老派的关键词匹配方法BM25(类似于图书馆的传统索引卡系统,只认识文字,不理解含义),另外四种是现代的“语义理解”型检索器,包括QWEN3-Embedding-4B、QWEN3-Embedding-8B、Multilingual-E5-Large和Arctic-Embed-L-2.0。这些语义检索器经过大量多语言训练,理论上能够跨语言理解含义,找到语言不同但意思相近的内容。
每位侦探配上每种搜索工具,在三种条件下各自破案:原始英文证据库(作为基准参照)、多语言设置、跨语言设置。评判标准包括最终答案的正确率、证据被找到的比例、搜索了多少次、答案的可信度自我估计是否准确、以及引用证据是否可靠。
实验结果用一个词来形容就是:惨烈。
先看最强选手DeepSeek-V4-Pro配上最好的语义检索器QWEN3-Embedding-8B的表现。在原始英文证据库里,它的正确率达到64.70%——已经是所有测试组合里最高的成绩。但当证据被翻译成其他语言后,多语言设置下正确率跌到48.80%,跨语言设置下更跌到42.29%。换句话说,仅仅因为证据被翻译了,这位最强侦探的破案率就掉了大约15到22个百分点。
其他侦探的情况更糟糕。以GPT-OSS-20B为例,搭配同一个检索器,在英文证据库里正确率是32.89%,到了多语言设置就跌到12.05%,跌幅将近21个百分点。如果用老派的关键词检索器BM25,那就更惨——原本15.18%的正确率,到多语言设置直接跌到3.13%,基本等于随机猜测。
这里有个关键细节值得关注:在多语言设置和跨语言设置之间,大多数侦探的表现差距并不大。这说明问题的核心不在于“证据是一种语言还是多种语言混杂”,而在于“证据语言和问题语言不一致”这件事本身。只要存在语言不匹配,破案率就会大幅下降。
与此同时,检索器找到正确证据的能力(证据召回率)也同步跳水。以GPT-OSS-120B配QWEN3-Embedding-8B为例,英文环境下证据召回率是48.19%,但在多语言和跨语言设置下都跌到了28%左右。语义型检索器虽然比关键词检索器强得多——BM25在翻译后的环境里几乎找不到任何有用证据——但就算是最好的语义检索器,也会损失将近20个百分点的证据召回能力。
除了破案率下降,研究团队还发现了一个更让人不安的现象:当证据是外语时,AI侦探不仅能力下降,还变得更“不知道自己不知道”。
在这项研究里,“校准误差”是衡量AI自我评估准确度的指标。简单说:AI在回答后会给出一个“我有几成把握”的估计,如果它说“我90%确定”,那最终实际答对的概率也应该接近90%。但当证据是外语时,AI侦探的校准误差明显增大——它们说自己很确定,实际上却答错了。
以GPT-OSS-120B为例,搭配QWEN3-Embedding-8B,在英文证据库下校准误差是42.50%,到了多语言设置飙升到57.78%,到了跨语言设置是57.45%。这意味着当证据是翻译版时,这位侦探不仅破案率下降,还变得更加盲目自信。
更值得注意的是,面对外语证据,侦探们的搜索次数普遍增加了,但额外的搜索努力并没有弥补损失的破案率。还是以GPT-OSS-120B为例,在英文环境下平均搜索25.35次,到了多语言和跨语言环境分别增加到30.01次和30.45次——多搜了将近5次,但答对率反而从38.07%跌到了14-15%左右。多努力不等于多收获,额外的搜索只是在做无用功。
研究还专门检查了AI侦探在写出最终答案时,有没有正确引用找到的证据文件。这个指标叫“引用可靠性”,包括引用覆盖率、引用精确度和引用召回率。
结果显示,当证据是外语时,这三个指标全部下降。以DEEPSEEK-V4-PRO为例,在英文环境下引用覆盖率是88.07%,引用精确度是85.80%;到了多语言设置分别跌到79.64%和79.64%,跨语言设置则是74.46%和70.76%。语言不匹配不仅让侦探找不到证据,就算找到了,也更容易在写报告时忘记引用,或者错误地引用了不相关的文件。
研究团队还深入分析了引用出错的类型,发现两类主要错误:第一类是“映射失败”——侦探确实找到了正确的证据文件,但最后写答案时引用了其他不相关的文件;第二类是“根本没找到”——检索器从头到尾就没把正确证据文件找出来,侦探只好引用了英文的无关文件凑数。在翻译后的环境里,“根本没找到”这类错误占比明显上升,说明检索器的失败是引用质量下降的主要根源。
为了弄清楚到底是“找证据”的环节出了问题,还是“理解证据写答案”的环节出了问题,研究团队设计了一个终极诊断实验——“神谕检索”。在这个实验里,研究人员直接把所有正确的证据文件塞进AI侦探的输入窗口,不需要侦探去搜索,看它能不能答对。
这个实验的结果令人深思。当正确证据被直接提供时,侦探的表现大幅提升:英文证据条件下,GPT-OSS-20B的正确率从32.89%飙升到90.36%,GPT-OSS-120B从38.07%飙升到94.70%,QWEN3.6-35B-A3B从38.55%飙升到93.86%。这证明了“找证据”确实是当前最大的瓶颈——如果搜索问题能解决,正确率本可以高很多。
然而,关键的发现在于:即便把正确证据直接塞给侦探,当这些证据是翻译版时,侦探的表现依然低于英文证据条件。以GPT-OSS-20B为例,“神谕检索+英文证据”正确率是90.36%,“神谕检索+跨语言证据”正确率却只有77.59%,差了将近13个百分点。这13个百分点的差距,就不能用“找不到证据”来解释了——证据明明白白摆在眼前,侦探还是答错了。
这揭示了第二个独立的瓶颈:AI侦探在阅读理解非英文证据、把信息和英文问题对应起来、再用英文写出答案的过程中,本身就存在能力上的损耗。
研究团队进一步做了一个更细致的对照实验:把问题、系统提示和证据全部换成目标语言(比如全换成日文),看看“完全不需要切换语言”会不会有帮助。结果出人意料——全部换成目标语言之后,表现反而更差了。GPT-OSS-20B在“英文提示+外语证据”下正确率是77.59%,但在“外语提示+外语证据”下只有71.67%。这说明这些AI模型本质上是以英文为“母语”在执行指令的,强行用非英文提示反而让它们更难发挥。改善跨语言性能需要的是更强的多语言训练,而不是把提示语言改成目标语言这种表面操作。
研究团队还按语言逐一拆解了结果,看不同语言之间的差距有多大。
以QWEN3.6-35B-A3B配QWEN3-Embedding-8B、在跨语言设置下的数据为例,差异相当悬殊。英文(未翻译的参考组)正确率是42.86%。在高资源翻译语言里,表现最好的是德文(27.54%)和法文(26.09%),表现最差的是日文(4.35%)和韩文(10.14%)。在低资源非洲语言里,斯瓦希里语(17.39%)和沃洛夫语(14.49%)尚可,而约鲁巴语和祖鲁语都只有4.35%。
乍一看,低资源语言正确率更低,好像是因为这些语言太难了。但“神谕检索”数据却讲了不同的故事:当正确证据被直接提供时,斯瓦希里语的神谕正确率是89.86%,沃洛夫语也是86.96%——和高资源语言的89.67%平均水平相差无几。这说明低资源语言的低表现,主要是检索器找不到证据造成的,而不是AI本身无法理解这些语言。一旦证据出现在眼前,AI还是能读懂并作答的。
不过,高资源语言之间也存在明显差异,不能简单地用“资源多寡”一概而论。同属高资源语言,法语、德语、葡萄牙语、西班牙语的表现明显好于日语和韩语。研究人员发现,日语的神谕正确率(73.91%)也是高资源语言里最低的,说明在“理解并利用日语证据”这个环节,AI自身也存在独特的困难,不只是检索问题。
研究团队还测试了一个轻量级的改进策略,灵感来自学术界的AGENTIR方法:在每次搜索之前,让侦探先把自己的思考过程(正在找什么、已经知道了什么、还缺什么)附加到搜索词里,一起送给检索器。这样做的好处是检索器能获得更多上下文,从而找到更相关的证据。
这个方法不需要重新训练任何模型,不需要改变数据库,只是在查询时多加了一段话。结果显示,这个小改动确实有效:在英文证据库下,正确率从32.89%提升到36.14%,证据召回率从42.91%提升到47.77%,同时搜索次数反而略有减少。在翻译后的证据库里也有类似改善,多语言设置下正确率从12.05%提升到14.10%,跨语言设置下从11.93%提升到14.60%。
然而,这个提升在翻译环境下明显小于英文环境。换句话说,侦探的推理思考确实能帮检索器找到更好的证据,但它无法独立弥补语言不匹配带来的根本性障碍。要真正解决跨语言检索的问题,还需要检索器本身的跨语言对齐能力配合。
研究团队还做了一个很有实际意义的测试:改变AI侦探的“努力程度”——也就是让它在低、中、高三种模式下分别工作,看看多努力能不能弥补语言劣势。
数据显示,努力程度确实重要:在英文环境下,从低努力到高努力,GPT-OSS-20B的正确率从15.18%提升到36.02%;在跨语言环境下,同样从4.94%提升到15.18%。努力总归是有意义的。
但问题在于,高努力模式下的跨语言正确率(15.18%),仅仅相当于低努力模式下的英文正确率(15.18%)——而高努力模式需要的搜索次数是低努力模式的14倍以上,高努力跨语言需要28.66次搜索,低努力英文只需要2.01次。付出了14倍的计算成本,换来的却只是和低努力英文持平的表现。跨语言的语言壁垒,不是靠加班就能跨越的。
归根结底,研究揭示了一个清晰的结论:跨语言深度研究面临两道独立的关卡,第一道是“找到证据”,第二道是“用好证据”。当前最好的系统在两道关卡上都失守了,而且这两个问题不能靠简单地让AI多搜几次来解决。真正的突破,需要更强的多语言检索对齐、更好的跨语言推理能力,以及能意识到“我现在在处理非英文证据、需要特殊策略”的语言感知搜索机制。
说到底,这项研究最直接的意义是给AI行业敲了一记警钟:现在我们评估AI研究助手的方式,几乎都是在英文环境下进行的,而真实世界的信息是多语言的。一个在英文测试中得满分的AI侦探,放到多语言证据面前可能只剩下三成战力。如果我们希望AI助手真的能帮助全球各地的人——不管他们用哪种语言写下知识——就必须正视这个差距,而不是把它当成一个边缘问题忽视掉。对于普通用户来说,这意味着当你用AI工具搜索非英文来源的信息时,要对它给出的答案保持更高的警惕,因为它可能正在用错误的证据或根本没有找到正确证据的情况下给你一个“自信”的回答。XBCP这套新的测试基准,将为未来研究者提供一个更接近真实世界的评估工具。对这个领域感兴趣的读者,可以通过arXiv:2606.15345查阅完整论文。
Q1:XBCP基准测试和BrowseComp-Plus有什么区别?
A:BrowseComp-Plus是一套全英文的深度研究评测基准,问题和证据文件都是英文的。XBCP在此基础上,把证据文件翻译成了12种语言(包括中文、日文、斯瓦希里语等),而问题和标准答案仍保持英文不变,专门用来测试AI在证据语言与问题语言不一致时的表现,填补了跨语言深度研究评测的空白。
Q2:为什么AI在证据是外语时答对率会大幅下降?
A:研究发现有两个独立的原因。一是检索器找不到证据——语义检索器虽然比关键词检索器好很多,但在翻译后的证据库里召回率仍会损失约20个百分点;二是就算把正确证据直接给AI,它理解外语证据并和英文问题对应作答的能力本身也存在损耗,在跨语言设置下这部分损失大约在10到13个百分点左右。
Q3:神谕检索实验说明了什么问题?
A:神谕检索实验把所有正确证据直接塞进AI输入,绕过搜索环节,来区分“找不到证据”和“理解不了证据”两类问题。结果发现,直接提供证据后正确率大幅提升,证明搜索是当前最大瓶颈;但即便提供了正确证据,翻译版证据的正确率仍低于英文证据,证明AI在理解和利用外语证据方面也存在独立的能力短板,不只是搜索问题。
侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述