IBM与MIT联合研究首次让语言模型直接理解量子算符,将256×256的泡利转移矩阵作为视觉令牌输入,实现4量子比特Clifford+T电路自回归合成。通过数据规模扩展和多次采样,合成成功率可达99.4%,全面超越贪心搜索、模拟退火等基线方法。
最近,IBM和MIT联合发布了一篇很有意思的研究,严格来说,它属于2026年6月的arXiv预印本。先不说别的,这篇工作的核心在于—让AI学会直接“看懂”量子操作的核心数学工具。
大家都知道,像ChatGPT、GPT-4这种大模型(LLM),已经能在代码、数学、问答上秀出惊人的能力。另一边,量子计算也在快马加鞭,毕竟它承诺能解决那些经典计算机永远搞不定的问题。那么问题来了:能不能让这两个领域来个“梦幻联动”?让AI的大脑直接进入量子世界?
长期稳定更新的攒劲资源: >>>点此立即查看<<<
问题的关键恰恰在于:现有所有方法,都只是让AI看“文字描述”——比如量子电路的名称、代码,或者门的列表。这就像让一个厨师只看菜名而不看食材——他永远无法真正理解这道菜的本质。量子操作的核心是一种叫“酉矩阵”的数学对象,它是一张布满复数的大表格,这才是量子计算的真正内涵。过去,没有任何系统能让AI直接“吞下”这种数学对象并加以理解。
IBM的研究团队决定直接翻越这道墙。他们开发了一套方法,能把量子算符直接“翻译”成AI大脑能够理解的语言,并在此基础上完成量子电路的自动生成。这可以说是历史上第一次,有系统让语言模型能够直接基于量子算符本身进行推理,而不是只靠它的文字标签。直接说结论:这扇门,被推开了。
要理解这项研究究竟解决了什么,咱们得先搞明白“量子电路合成”到底是个啥。
量子计算机执行任务时,依靠的是一系列量子门操作。你可以把它们想象成乐高积木。每一种量子操作(也就是一个酉矩阵)都需要用这些基础积木搭出来。“量子电路合成”其实就是给你一个目标形状(目标酉矩阵),要你找出用哪些积木、按什么顺序拼,才能还原出这个形状。
听起来挺简单?错。难就难在这里:可用的积木有256种。每多塞一块积木,搜索空间就直接乘以256。如果电路长度是15块积木,理论上需要搜索的可能性超过256的15次方。这已经是个天文数字,任何暴力搜索在这个问题面前都会直接趴下。
这篇论文具体研究的是“4量子比特Clifford+T电路合成”,使用的是一种叫“泡利旋转门集”的框架。每个量子门可以用一个4字母的字符串来表示(比如“XIIX”或“ZIII”),4量子比特下,一共有256种不同的门。目标就是找到一串门的序列,使其组合起来近似等于给定的目标量子操作。研究团队用一个叫“泡利转移矩阵”(PTM)的东西来表示量子操作,它是一个256×256的实数矩阵。好处是不含复数,而且对全局相位不敏感,非常适合作为神经网络的输入。
为了衡量合成进行到哪一步了,研究团队引入了一个叫“保真度”的指标。保真度等于1意味着完美合成,研究中把大于等于0.999视为合成成功。
这里可以用一个很贴切的类比来理解整个技术框架。
我们都知道,现代多模态AI(比如能看图说话的AI)是这样工作的:把一张图片分割成小块,每一小块通过一个“翻译官”变成AI大脑能理解的数字向量,然后这些向量和文字一起送进AI大脑,AI就能同时理解图和文字了。这篇论文的核心创新,就是把这套“图文结合”的方法,移植到了“量子操作+文字”的组合上。
具体来说,系统首先把那个256×256的PTM矩阵当成一张“图片”来处理。这张“图片”被切割成若干个16×16的小块,一共得到256个小块,每个小块就像图像中的一个像素区域。每个小块通过一个轻量级的线性变换层(加上层归一化和位置编码)被转换成一个768维的向量——这些向量就是“视觉令牌”,你可以理解为量子操作的“视觉语言”。
紧接着,一个两层的MLP(多层感知机,就是一个小型神经网络)把这些视觉令牌进一步映射到语言模型的“词嵌入空间”——也就是AI大脑理解文字时所用的内部数字表示空间。这整个“翻译”过程引入的参数量大约为1400万,还不到整个系统总参数量的0.4%,非常轻量。
这256个“量子视觉令牌”会被拼接到文字令牌的前面,一起送入语言模型。文字部分包含两类信息:一是当前的“上下文”——即目前的保真度和已经预测出的前几个门;二是一段“指令前缀”——告诉AI大脑要用指定的门集来合成这个量子操作。
整个系统以IBM的Granite 4.0 Micro(30亿参数)作为语言模型骨干,整体设计灵感来自视觉语言模型(比如LLaVA),但服务对象从图像换成了量子算符。
系统的工作方式不是一次性预测整条电路,而是像剥洋葱一样,每次只预测一层。
具体流程是这样的:目标量子操作U可以分解为一系列门的乘积,比如U = g14 × g13 × … × g1 × g0,其中g0最先作用于量子态。系统从最后一个门开始,逐步向前预测。在每一步,系统看到的是“残差PTM”——也就是目标中尚未被合成出来的部分。
预测出一个门g_hat后,系统会用这个门的PTM的逆(在PTM框架下,逆就是转置)从左边乘上残差PTM,得到新的残差PTM,然后重新编码送入系统,预测下一个门。这个过程一直持续,直到残差PTM的保真度超过阈值,系统会输出一个特殊的“END”令牌,表示合成完成。
这种设计有一个妙处:系统不需要在自己的“记忆”里维持整个合成状态,因为每一步都会重新算出当前的残差PTM并重新编码。换句话说,残差PTM就像一块实时更新的“小黑板”,每一步都在告诉系统还剩多少活儿没干完。系统只需要专注于当下这一步:看着黑板,预测下一个最合适的门。
训练数据的生成方式利用了一个天然的“不对称性”:给你一串门,算出它的PTM很容易;但给你一个PTM,找出对应的门序列很难。于是研究团队随机采样了大量长度在1到15个门之间的电路,正向计算PTM,然后把每一个分解步骤作为一条训练样本。每步都是独立的“看残差PTM预测下一个门”任务,用标准的下一个令牌预测损失(也就是语言模型最常用的训练目标)来优化。
训练分两个阶段进行。第一阶段冻结语言模型,只训练视觉编码器和MLP映射层,让量子视觉令牌先和语言模型的表示空间对齐,大约训练7000步。第二阶段解冻所有参数一起训练,但语言模型用较低的学习率,视觉部分用大约4倍于语言模型的较高学习率,并采用“热身-稳定-衰减”的学习率调度策略。
研究团队在4量子比特、1到15个门长度的电路上进行了系统性的数据规模实验,所有超参数保持不变,只改变训练电路数量。结果相当清晰地展示了一条向上的曲线。
从14.5万条训练电路开始,合成成功率仅有23.4%,平均保真度0.477。随着数据量翻倍,成功率稳步上升:28.7万条时25.5%,57.5万条时跃至37.3%,115万条时达到58.1%,230万条时62.9%,460万条时66.7%,920万条时71.0%。整体上看,从最少到最多数据,成功率提升了超过3倍,而且没有出现任何停滞的迹象,说明继续增加数据有望带来进一步提升。
更有意思的是,研究团队还尝试了在门长度维度上扩展:先用920万条1到15门电路训练好的模型作为起点,再用额外的460万条1到30门电路继续训练。这个“更长电路”模型在同样的1到15门测试集上达到了87.9%的成功率,比仅在1到15门电路上训练的9.2M模型高出近17个百分点。这说明让模型见识更长的电路,能显著提升它处理较短电路的能力——就像练过马拉松的人跑5公里会更轻松一样。
语言模型有一个天然优势:它可以通过“多次采样”来提高成功率。这就好比让一个学生考试时有机会做多份卷子,然后选最好的那份。
研究团队在同一个目标电路上运行N次独立合成尝试:第1次用贪心解码(每步选概率最高的门),后续N-1次用温度为0.7的随机采样(引入一些随机性来探索不同路径),然后从N次结果中选保真度最高的那个。
结果非常亮眼。仅用贪心解码(N=1),成功率为87.9%。N=3时升至92.7%,N=5时94.5%,N=10时97.1%,N=80时达到99.4%。提升幅度随N的增长大致呈对数线性,而且主要集中在较长的电路(11到15门)上,因为在这些情况下贪心路径更容易走错,而随机探索能找到贪心方法错过的正确路径。
这说明系统学到的不只是一种固定的合成策略,而是一个覆盖多种可能路径的概率分布——即使贪心路径失败,模型仍然给正确路径分配了有意义的概率,随机采样就能把它挖掘出来。在一块NVIDIA H100 GPU上,单次合成大约需要1秒,80次尝试大约80秒,计算代价完全在可接受范围内。
研究团队将系统与四个基线方法进行了比较,测试对象是2000条保留的1到15门电路。
首先是“贪心搜索”:在每一步枚举256种可能的门,每步选保真度提升最多的那个,重复256次。这个方法整体成功率仅有13.8%,在超过3门的电路上基本崩溃,因为局部最优经常不是全局最优。
其次是SynthetiQ,一种基于模拟退火的搜索方法,使用100秒时间预算和48个CPU线程。它在1到6门电路上表现接近完美,但在13门及以上完全失效,整体成功率62.7%。
第三是Rietsch等人的强化学习方法(Gumbel AlphaZero),整体成功率约83.7%,在短路上表现强劲,但在13门以上急剧下滑。
第四是Theissinger等人的MDL束搜索方法,整体约68.8%,在短路上不如强化学习,但在长路上更稳定,每样本耗时约1秒。
侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述