
henry 发自 凹非寺
量子位 | 公众号 QbitAI
何恺明,也下场作念言语模子了。
只不外,此次他带队作念的不是民众舒适的、像ChatGPT背后那套“揣度下一个词元”(next token prediction)的自纪念范式。
而是另一条当年几年在图像范围大火、如今正被越来越多东说念主搬进文本生成的新门路:扩散言语模子(Diffusion Language Model,DLM)。
在最新的论文中,何恺明团队放出全新一语气扩散言语模子:ELF:Embedded Language Flows。

与不少还停留在token层面作念扩散的言语模子不同,ELF把所有生成过程都留在了一语气的embedding空间里,直到终末一步,才再行碎裂化,将暗示变回token。
靠着这套想象,ELF只用了105M参数、45B检会token、32步采样,就正面跑赢了一批主流扩散言语模子。
最直不雅的一项想象是它在OpenWebText上,把生成困惑度(Generative Perplexity)胜利压到了24。
这里陋劣科普一下生成困惑度,它本色上是让一个高大的言语模子,给生成限定“查验功课”,望望这些文本到底像不像的确东说念主类写出来的语料——
值越低,流露生成质地越高、模子出来的东西也就越没AI味儿,越当然。
在和主流扩散言语模子的对比中,ELF在检会token少近10倍、采样步数更少的情况下,反而拿到了更低的生成困惑度。

可以说,在当年很长一段时间里,扩散言语模子的阐扬,简直都发生在碎裂DLM(Discrete DLM)这一侧。
而ELF第一次解说了一件事:一语气的程序,不但能跑,况兼恶果可以。
ELF到底作念了什么措施悟ELF,先得雄厚扩散言语模子当今到底在作念什么。
扩散言语模子,主要有两种时期门路。一是以MDLM、Duo为代表的碎裂派,胜利在token空间作念扩散,每一步处理的是碎裂当场变量。
二是包括Diffusion-LM、CDCD、DiffuSeq在内的一语气魄,把token映成一语气embedding,在一语气空间里去噪。
此前的磋磨中,像MDLM、LLaDA、Dream 7B这些碎裂门路占据了优势。原因是很陋劣,因为言语自身便是碎裂的。
关于这一看似学问的雄厚,恺明团队给出的判断适值相背——
问题可能不是“言语必须碎裂”,问题可能是:前东说念主根底莫得让一语气门路,一语气到底。
Diffusion-LM这一类的程序诚然在embedding空间去噪,但每一步都要算一次token-level的交叉熵,把一语气轨迹一齐绑在词表上。
其后的LD4LG、Cosmos走latent diffusion门路,去噪过程是一语气了,但要单独训一个decoder把latent解回token,相配于多一个模块。
基于此,ELF把通盘denoising,全留在continuous embedding space;直到终末一步 t=1,才再行投回token。
具体来说,ELF在检会时,碎裂token先被编码成一语气embedding,再加噪成 z_t,模子要么精良把它归附成干净embedding(MSE),要么胜利揣度token(CE)。
推理时,模子从高斯噪声 z_0 启航,一齐在一语气空间里去噪,直到终末一步,才切到decode花式,把embedding再行投回token。
ELF第一次把“一语气暗示”和“碎裂输出”这两个当年总被觉得必须反复对皆的问题,透彻终止了:
中间的去噪,绝对交给一语气空间;最终的言语生成,只留到终末一步碎裂化。
莫得每一步都往词表上硬对皆,也不需要特殊检会一个decoder,所有生成经过第一次的确作念到了:
一语气便是一语气,碎裂便是碎裂。
而这,适值亦然ELF后头能用更少采样步数、更少检会token,却跑赢一众扩散言语模子的重要。
ELF不是“先扩散,再解码”。在具体的达成上,ELF还惩处了三个问题:
token怎么变一语气?一语气里怎么去噪?终末又怎么变回token?
把token形成一语气embedding要把一语气扩散用在言语上,第一步,得先把碎裂的token形成一语气暗示。
论文中,ELF先把它切成token序列,再映射到一语气embedding空间。这里具体怎么映射,其实有多种选拔。
默许情况下,ELF用的是T5预检会encoder,生成双向的contextual embedding。论文后头也测试了jointly trained embedding和当场embedding等不同有琢磨。
值得防御的是,这个encoder只在检会阶段使用,推理时并不会特殊增多模块。
在一语气embedding空间里作念Flow Matching拿到一语气暗示之后,ELF就在embedding空间里作念Flow Matching。
陋劣说,Flow Matching界说了一条从噪声到的确数据的一语气流动轨迹:
t=0时,是高斯噪声;t=1时,是干净的embedding;中间通盘景况,都是两者的线性插值,也便是论文里的rectified flow。在传统Flow Matching,蚁集频频胜利揣度“速率场” v。
但ELF莫得这样作念,而是沿用了恺明团队半年前在《Back to Basics: Let Denoising Generative Models Denoise》里提议的想路——
胜利揣度干净embedding x,也便是x-prediction。
检会看法,便是最小化揣度embedding和的确embedding之间的均方差错(MSE)。
至于为什么采纳x-prediction,论文给了两个原因:
第一,它在高维暗示上更踏实——比如768维致使更高的token embedding;第二,它自然和终末一步“揣度干净token”的看法对皆。
论文还稀奇提到:诚然表面上也可以先揣度速率v,再换算成x,但这样一来,后头denoising和decoding之间的权重分享就很难拓荒。
现实上,他们也发现:一朝分享权重,v-prediction恶果显豁变差。
从一语气embedding,再回到碎裂token生成言语,最终输出照旧碎裂token。
是以ELF只在终末一个时间步(t = 1),还得把一语气embedding再行投回token空间。
不外,这一步ELF莫得像好多latent diffusion程序那样,特殊检会一个decoder。相背,它把终末一步胜利视作:
一次continuous-to-discrete decoding。换句话说:decoder和前边的denoiser,其实是并吞个蚁集。
为了让终末一步检会不至于太陋劣(因为表面上t→1时,输入仍是终点接近干净embedding),ELF在终末一步特殊加入了一次token-level corruption,构造出一个带扰动的输入。
随后,并吞个蚁集输出clean embedding,再通过一个可学习的unembedding矩阵 W,投影成token logits。
检会看法,则是模范的token-level cross-entropy loss。所有蚁集分享并吞套参数,并特殊剿袭一个二值的mode token:去噪花式/解码花式。
推理时,ELF从高斯噪声开动一齐在一语气空间里去噪,直到终末一步 t = 1,才切换到decode花式,再通过argmax输出最终token。
值得一提的是,在ELF中,图像生成里最常用的时期之一,CFG(classifier-free guidance)也被搬过来了
ELF用self-conditioning看成条目信号,套上training-time CFG(一次forward模拟两次推理,莫得inference支出),把图像那儿的有琢磨胜利搬了过来。
现实对比现实部分,ELF基本回应了一个当年两年一直悬着的问题:
一语气扩散言语模子,到底能不行打?谜底是:不但能打,况兼第一次在质地、速率、检会老本三个维度同期赢。
如开头所说,在OpenWebText生成任务中,在不作念蒸馏的情况下,ELF只用32步采样,就把生成困惑度压到了24。
而此前主流的碎裂扩散模子,往往要跑到1024步,才能接近这个水平。
更夸张的是,ELF达成这一限定时,检会token只用了45B。
而同级别敌手,多数是500B+。换句话说:采样步数少了一个数目级,检会数据也少了一个数目级,恶果反而更好。
而在好多扩散模子最容易掉队的条目生成任务上,ELF也没掉链子。
不论是WMT14机器翻译,照旧XSum文本摘记,ELF都踏实越过现存扩散言语模子,致使把不少自纪念baseline也压了下去。
论文终末给出的总结其实很克制:ELF在生成质地、采样遵循和检会老本之间,达成了很强的trade-off。
翻译成东说念主话便是:一语气魄,不是不行打。仅仅以前没把一语气这件事作念到底。
作家先容终末,咱们再来先容一下这篇著作的作家。
这篇论文的两篇一作是共同孝顺,排行先后限定由硬币决定。
胡珂雅,她是这篇著作的两位第一作家之一,MIT EECS一年岁博士生,亦然恺明在MIT带的第一批博士生之一,现时由恺明和Jacob Andreas皆集劝诱。
她本科毕业于上交的ACM班,现时的磋磨意思主如果言语和视觉的交叉范围,勤奋于构建数据遵循更高、泛化身手更强的智能体。
值得一提的是,在恺明MIT的主页中,胡珂雅排在Grad students第一位,可以说是组内的各人姐了。
第二位第一作家Linlu Qiu,相似是MIT的博士生,师从Yoon Kim。
她本科毕业于香港大学,硕士毕业于Georgia Institute of Technology,此前还在Google作念过AI Resident。
有利思的是,这并不是她第一次和恺明联贯。就在不久前,她还和恺明团队所有拿下了CVPR 2026论文《ARC Is a Vision Problem!》,把ARC推理问题再行界说成了视觉问题。
另一位作家Hanhong Zhao(赵瀚宏)为MIT本科生,他高中就读于东说念主大附中,曾是外洋物理奥林匹克竞赛IPhO金牌得主。
还有一位作家陆伊炀,配景有点“少年班滋味”。
他是清华姚班大二本科生,现时在MIT操办机科学与东说念主工智能现实室(CSAIL)实习,导师是何恺明,主要磋磨标的为操办机视觉和深度生成模子。
高中时期,他是物理竞赛生,曾以江苏选手中第别称、天下第九名的获利,在2022年赢得了第三十九届天下中学生物理竞赛(CPhO)金牌。
此前,他以一作身份与恺明联贯过论文《Bidirectional Normalizing Flow: From Data to Noise and Back》。
另一位中枢作家黎天鸿,则是恺明组的博后。
他本科就读于清华姚班,博士毕业于MIT,半年前那篇《Back to Basics: Let Denoising Generative Models Denoise》的一作,便是他。
此外,论文的其他作家Yoon Kim、Jacob Andreas,MIT EECS两位言语模子标的的西宾,以及何恺明本东说念主。
参考贯串
[1]https://arxiv.org/pdf/2605.10938— 完 —
量子位 QbitAI · 头条号签约
和蔼咱们买球下单平台,第一时间获知前沿科技动态

