量子计算+AI：IBM研究院让语言模型读懂量子世界

来源：互联网 2026-06-20 10:21:24

IBM与MIT联合研究首次让语言模型直接理解量子算符，将256×256的泡利转移矩阵作为视觉令牌输入，实现4量子比特Clifford+T电路自回归合成。通过数据规模扩展和多次采样，合成成功率可达99.4%，全面超越贪心搜索、模拟退火等基线方法。

最近，IBM和MIT联合发布了一篇很有意思的研究，严格来说，它属于2026年6月的arXiv预印本。先不说别的，这篇工作的核心在于—让AI学会直接“看懂”量子操作的核心数学工具。

大家都知道，像ChatGPT、GPT-4这种大模型（LLM），已经能在代码、数学、问答上秀出惊人的能力。另一边，量子计算也在快马加鞭，毕竟它承诺能解决那些经典计算机永远搞不定的问题。那么问题来了：能不能让这两个领域来个“梦幻联动”？让AI的大脑直接进入量子世界？

长期稳定更新的攒劲资源： >>>点此立即查看<<<

问题的关键恰恰在于：现有所有方法，都只是让AI看“文字描述”——比如量子电路的名称、代码，或者门的列表。这就像让一个厨师只看菜名而不看食材——他永远无法真正理解这道菜的本质。量子操作的核心是一种叫“酉矩阵”的数学对象，它是一张布满复数的大表格，这才是量子计算的真正内涵。过去，没有任何系统能让AI直接“吞下”这种数学对象并加以理解。

IBM的研究团队决定直接翻越这道墙。他们开发了一套方法，能把量子算符直接“翻译”成AI大脑能够理解的语言，并在此基础上完成量子电路的自动生成。这可以说是历史上第一次，有系统让语言模型能够直接基于量子算符本身进行推理，而不是只靠它的文字标签。直接说结论：这扇门，被推开了。

一、量子电路合成：像拼乐高，但难度是地狱级别的

要理解这项研究究竟解决了什么，咱们得先搞明白“量子电路合成”到底是个啥。

量子计算机执行任务时，依靠的是一系列量子门操作。你可以把它们想象成乐高积木。每一种量子操作（也就是一个酉矩阵）都需要用这些基础积木搭出来。“量子电路合成”其实就是给你一个目标形状（目标酉矩阵），要你找出用哪些积木、按什么顺序拼，才能还原出这个形状。

听起来挺简单？错。难就难在这里：可用的积木有256种。每多塞一块积木，搜索空间就直接乘以256。如果电路长度是15块积木，理论上需要搜索的可能性超过256的15次方。这已经是个天文数字，任何暴力搜索在这个问题面前都会直接趴下。

这篇论文具体研究的是“4量子比特Clifford+T电路合成”，使用的是一种叫“泡利旋转门集”的框架。每个量子门可以用一个4字母的字符串来表示（比如“XIIX”或“ZIII”），4量子比特下，一共有256种不同的门。目标就是找到一串门的序列，使其组合起来近似等于给定的目标量子操作。研究团队用一个叫“泡利转移矩阵”（PTM）的东西来表示量子操作，它是一个256×256的实数矩阵。好处是不含复数，而且对全局相位不敏感，非常适合作为神经网络的输入。

为了衡量合成进行到哪一步了，研究团队引入了一个叫“保真度”的指标。保真度等于1意味着完美合成，研究中把大于等于0.999视为合成成功。

二、给AI大脑装上“量子眼睛”：核心技术架构

这里可以用一个很贴切的类比来理解整个技术框架。

我们都知道，现代多模态AI（比如能看图说话的AI）是这样工作的：把一张图片分割成小块，每一小块通过一个“翻译官”变成AI大脑能理解的数字向量，然后这些向量和文字一起送进AI大脑，AI就能同时理解图和文字了。这篇论文的核心创新，就是把这套“图文结合”的方法，移植到了“量子操作+文字”的组合上。

具体来说，系统首先把那个256×256的PTM矩阵当成一张“图片”来处理。这张“图片”被切割成若干个16×16的小块，一共得到256个小块，每个小块就像图像中的一个像素区域。每个小块通过一个轻量级的线性变换层（加上层归一化和位置编码）被转换成一个768维的向量——这些向量就是“视觉令牌”，你可以理解为量子操作的“视觉语言”。

紧接着，一个两层的MLP（多层感知机，就是一个小型神经网络）把这些视觉令牌进一步映射到语言模型的“词嵌入空间”——也就是AI大脑理解文字时所用的内部数字表示空间。这整个“翻译”过程引入的参数量大约为1400万，还不到整个系统总参数量的0.4%，非常轻量。

这256个“量子视觉令牌”会被拼接到文字令牌的前面，一起送入语言模型。文字部分包含两类信息：一是当前的“上下文”——即目前的保真度和已经预测出的前几个门；二是一段“指令前缀”——告诉AI大脑要用指定的门集来合成这个量子操作。

整个系统以IBM的Granite 4.0 Micro（30亿参数）作为语言模型骨干，整体设计灵感来自视觉语言模型（比如LLaVA），但服务对象从图像换成了量子算符。

三、像剥洋葱一样一步步合成电路：自回归推理机制

系统的工作方式不是一次性预测整条电路，而是像剥洋葱一样，每次只预测一层。

具体流程是这样的：目标量子操作U可以分解为一系列门的乘积，比如U = g14 × g13 × … × g1 × g0，其中g0最先作用于量子态。系统从最后一个门开始，逐步向前预测。在每一步，系统看到的是“残差PTM”——也就是目标中尚未被合成出来的部分。

预测出一个门g_hat后，系统会用这个门的PTM的逆（在PTM框架下，逆就是转置）从左边乘上残差PTM，得到新的残差PTM，然后重新编码送入系统，预测下一个门。这个过程一直持续，直到残差PTM的保真度超过阈值，系统会输出一个特殊的“END”令牌，表示合成完成。

这种设计有一个妙处：系统不需要在自己的“记忆”里维持整个合成状态，因为每一步都会重新算出当前的残差PTM并重新编码。换句话说，残差PTM就像一块实时更新的“小黑板”，每一步都在告诉系统还剩多少活儿没干完。系统只需要专注于当下这一步：看着黑板，预测下一个最合适的门。

训练数据的生成方式利用了一个天然的“不对称性”：给你一串门，算出它的PTM很容易；但给你一个PTM，找出对应的门序列很难。于是研究团队随机采样了大量长度在1到15个门之间的电路，正向计算PTM，然后把每一个分解步骤作为一条训练样本。每步都是独立的“看残差PTM预测下一个门”任务，用标准的下一个令牌预测损失（也就是语言模型最常用的训练目标）来优化。

训练分两个阶段进行。第一阶段冻结语言模型，只训练视觉编码器和MLP映射层，让量子视觉令牌先和语言模型的表示空间对齐，大约训练7000步。第二阶段解冻所有参数一起训练，但语言模型用较低的学习率，视觉部分用大约4倍于语言模型的较高学习率，并采用“热身-稳定-衰减”的学习率调度策略。

四、数据越多，效果越好：规模化实验结果

研究团队在4量子比特、1到15个门长度的电路上进行了系统性的数据规模实验，所有超参数保持不变，只改变训练电路数量。结果相当清晰地展示了一条向上的曲线。

从14.5万条训练电路开始，合成成功率仅有23.4%，平均保真度0.477。随着数据量翻倍，成功率稳步上升：28.7万条时25.5%，57.5万条时跃至37.3%，115万条时达到58.1%，230万条时62.9%，460万条时66.7%，920万条时71.0%。整体上看，从最少到最多数据，成功率提升了超过3倍，而且没有出现任何停滞的迹象，说明继续增加数据有望带来进一步提升。

更有意思的是，研究团队还尝试了在门长度维度上扩展：先用920万条1到15门电路训练好的模型作为起点，再用额外的460万条1到30门电路继续训练。这个“更长电路”模型在同样的1到15门测试集上达到了87.9%的成功率，比仅在1到15门电路上训练的9.2M模型高出近17个百分点。这说明让模型见识更长的电路，能显著提升它处理较短电路的能力——就像练过马拉松的人跑5公里会更轻松一样。

五、多试几次，成功率直冲99.4%：推理时的规模化

语言模型有一个天然优势：它可以通过“多次采样”来提高成功率。这就好比让一个学生考试时有机会做多份卷子，然后选最好的那份。

研究团队在同一个目标电路上运行N次独立合成尝试：第1次用贪心解码（每步选概率最高的门），后续N-1次用温度为0.7的随机采样（引入一些随机性来探索不同路径），然后从N次结果中选保真度最高的那个。

结果非常亮眼。仅用贪心解码（N=1），成功率为87.9%。N=3时升至92.7%，N=5时94.5%，N=10时97.1%，N=80时达到99.4%。提升幅度随N的增长大致呈对数线性，而且主要集中在较长的电路（11到15门）上，因为在这些情况下贪心路径更容易走错，而随机探索能找到贪心方法错过的正确路径。

这说明系统学到的不只是一种固定的合成策略，而是一个覆盖多种可能路径的概率分布——即使贪心路径失败，模型仍然给正确路径分配了有意义的概率，随机采样就能把它挖掘出来。在一块NVIDIA H100 GPU上，单次合成大约需要1秒，80次尝试大约80秒，计算代价完全在可接受范围内。