首页 > 科技数码 >AI成绩单背后的华人出题人

AI成绩单背后的华人出题人

来源：互联网 2026-06-24 20:22:01

AI资讯合集

陈文虎及团队推出MMLU-Pro、MMMU等基准评测，改进大语言模型与多模态模型评估。MMLU-Pro将选项扩至10个并增加推理题，使模型准确率下降16%至33%。MMMU含1.15万道多模态题，顶尖模型准确率仅约60%。这些基准重新拉开模型差距，被行业广泛采用。

每次前沿模型发布，AI圈都会涌现几张熟悉的成绩单。

MMLU-Pro、MMMU、MMMU-Pro……这些名称对普通用户略显陌生，但在模型公司和研究者眼中，它们几乎成为“标准科目”。GPT、Claude、Gemini、Llama、Qwen、DeepSeek等模型反复在这些基准上交卷。

长期稳定更新的攒劲资源： >>>点此立即查看<<<

“是骡子是马拉出来溜溜”，模型表现如何，分数说了算。

AI成绩单背后的华人出题人

许多模型发布会上的性能对比图，离不开这些基准；HuggingFace上的排行榜也建立在它们之上。可以说，如今AI行业讨论模型能力时，使用的是一套由这些基准定义的共同语言。

但有意思的是，几乎所有人都在关注分数，却很少有人知道出题人是谁。而MMLU-Pro、MMMU和MMMU-Pro背后，都能看到同一个名字——陈文虎。

AI成绩单背后的华人出题人

他是加拿大滑铁卢大学计算机科学系助理教授，在谷歌学术上论文被引用超过3万次。

他也是“老虎实验室（TIGERLab）”的创始人——英文全称Text and Image GEnerative Research Lab，因名字中有“虎”字，他给实验室起了辨识度很高的中文名“虎头帮”。

01 旧考卷失灵之后

陈文虎最早被更多人注意到，是因为MMLU-Pro。

MMLU曾是大语言模型能力评估中最常用的基准之一。它像一张综合试卷，覆盖多个学科，用于衡量模型在知识理解和推理上的表现。

早期，这张考卷很有用。模型之间的差距能被分数拉开，行业也能通过它观察大语言模型是否真的在进步。

但问题很快出现。

随着模型能力不断提升，MMLU逐渐变得“不够考”了。前沿模型分数越来越高，彼此差距越来越小。

AI成绩单背后的华人出题人

到OpenAI发布o3之后，问题更加明显。o3在MMLU上的准确率已接近100%，其他前沿模型也陆续交出逼近满分的成绩。

这听起来像好消息，但对评估来说反而是麻烦。

一张考卷如果大家都能接近满分，就很难再判断谁更强、强在哪里。它仍能证明模型已具备某些能力，却不再适合衡量新的进步。

AI行业需要一张更难、也更不容易被“糊弄过去”的考卷。

2024年，陈文虎和团队推出MMLU-Pro。

MMLU-Pro并非简单扩大题库，而是重新改造了这张考卷。

AI成绩单背后的华人出题人

它包含12032道题，覆盖数学、物理、化学、法律、工程、心理学、健康等14个领域。相比原版MMLU，选项从4个扩展到10个，降低模型靠猜测蒙对的概率；同时加入更多偏推理的问题，清理原题库中相对简单、有歧义或区分度不足的题目。

效果非常直接。

论文结果显示，模型在MMLU-Pro上的准确率相比原版MMLU下降了16%到33%。同一模型在24种不同提示词风格下测试时，成绩波动也从原MMLU的4%到5%，下降到约2%。

也就是说，这张新考卷不仅更难，也更稳定。

它让那些在旧考卷上看起来都很优秀的模型，重新被拉开差距。模型到底是真会推理，还是只是更擅长应付旧题，也因此更容易被看出。

02 好用的基准评测

MMLU-Pro很快被行业采用。

它随后进入NeurIPS 2024数据集与基准评测赛道，也被EleutherAI的语言模型评测框架lm-evaluation-harness集成。对开源模型社区而言，这意味着它不再只是一篇论文里的数据集，而是进入常用评测工具链。

许多模型发布时开始报告MMLU-Pro分数，HuggingFace上的一些排行榜也将其纳入评估体系。

如果说MMLU-Pro解决的是语言模型评估中的“旧考卷失灵”，那么MMMU则把陈文虎和TIGERLab推到多模态评测的中心。

多模态模型的问题更复杂。

语言模型答题主要处理文字，多模态模型则要同时处理图片、图表、示意图、地图、表格、乐谱、化学结构等不同形式的信息。它不仅要读懂题干，还要真正看懂图像内容，并将视觉信息、文本信息和学科知识结合进行推理。

MMMU基准评测包含1.15万道多模态问题，来自大学考试、测验和教材，覆盖艺术与设计、商业、科学、健康与医学、人文社科、技术与工程六大领域，进一步细分为30个学科和183个子领域。

这些题目不是简单问模型“图里有什么”，它要求模型像学生做专业题一样，将图像信息和学科知识结合起来。

MMMU发布时，研究团队测试了14个开源多模态模型，以及GPT-4V、Gemini Ultra等代表性闭源模型。即便是当时最强的闭源模型，GPT-4V和Gemini Ultra也只达到56%和59%的准确率。

这组数字表明，多模态模型看起来进步很快，但在真正需要专业理解和推理的问题上，仍有大量提升空间。

后来，陈文虎团队又推出MMMU-Pro，进一步堵住模型绕过视觉信息的空间。它过滤掉只靠文本模型也能回答的问题，扩展候选项，并引入vision-only设置，将问题嵌入图像中，要求模型同时完成视觉读取和文本理解。

简单说，就是不让模型“只看文字猜答案”。

这类工作听起来有些琐碎，但它们很关键。因为多模态模型未来要进入医疗、教育、科研、设计、工程等场景，仅仅能描述图片是不够的。它必须能判断、推理、解释，也必须在复杂视觉信息中找到真正有用的部分。

03 “考卷”背后的人

陈文虎后来做的MMLU-Pro和MMMU，源于他一直以来的研究方向。

AI成绩单背后的华人出题人

他的研究兴趣原本就与复杂信息理解、知识问答和推理有关。

他本科毕业于华中科技大学，之后到德国亚琛工业大学攻读硕士，再到加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间，他已围绕复杂问答、表格推理、知识证据定位等方向开展研究。

这类任务有一个共同点：答案往往不在单一文本中。

它可能藏在一张表格里，也可能需要结合一段文字和一张图片，还可能要求模型先检索信息，再整合、计算和推理。模型不能只会复述已有知识。

陈文虎参与过的HybridQA、TabFact、Program of Thoughts、MAmmoTH等项目，都和这条线有关。

这也解释了他为何对模型评估中的漏洞敏感。

好的基准评测不是简单把题目搞得越来越难，而是要预判模型最容易在哪里“蒙对题”“看起来会”。

模型可能记住题库，也可以靠选项猜答案，还可能用文字绕过视觉信息……好的评估得把这些漏洞补好。

博士毕业后，陈文虎进入谷歌研究院，随后在2024年至2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。这段经历也很重要。长期接触前沿模型研发，让他更清楚模型能力如何增长，也更容易发现评估中可能存在的偏差和盲区。

2024年秋季，陈文虎加入滑铁卢大学计算机科学学院，担任助理教授。同年，他入选Canada CIFAR AI Chair。之后，他创办“老虎实验室（虎头帮）”，继续围绕基础模型、多模态能力和基准评测展开研究。

AI成绩单背后的华人出题人

虎头帮并非只做基准评测，也在做模型和系统研究。

在视频方向上，UniVideo试图将视频理解、生成和编辑放进同一个框架，让模型不仅能生成画面，也能理解内容、响应指令并完成修改。Vamba瞄准长视频理解，解决一小时级别视频带来的显存、计算和训练效率问题。与Meta生成式AI团队合作的MoCha，则聚焦于说话虚拟角色生成，通过语音和文字描述生成高质量人物视频。

AI成绩单背后的华人出题人