买球下单平台问题可能是：前东说念主根底莫得让一语气门路-买球的app排行榜前十名推荐-十大正规买球的app排行榜推荐

发布日期：2026-05-18 10:55 点击次数：89

henry 发自凹非寺

量子位 | 公众号 QbitAI

何恺明，也下场作念言语模子了。

只不外，此次他带队作念的不是民众舒适的、像ChatGPT背后那套“揣度下一个词元”（next token prediction）的自纪念范式。

而是另一条当年几年在图像范围大火、如今正被越来越多东说念主搬进文本生成的新门路：扩散言语模子（Diffusion Language Model，DLM）。

在最新的论文中，何恺明团队放出全新一语气扩散言语模子：ELF：Embedded Language Flows。

与不少还停留在token层面作念扩散的言语模子不同，ELF把所有生成过程都留在了一语气的embedding空间里，直到终末一步，才再行碎裂化，将暗示变回token。

靠着这套想象，ELF只用了105M参数、45B检会token、32步采样，就正面跑赢了一批主流扩散言语模子。

最直不雅的一项想象是它在OpenWebText上，把生成困惑度（Generative Perplexity）胜利压到了24。

这里陋劣科普一下生成困惑度，它本色上是让一个高大的言语模子，给生成限定“查验功课”，望望这些文本到底像不像的确东说念主类写出来的语料——

值越低，流露生成质地越高、模子出来的东西也就越没AI味儿，越当然。

在和主流扩散言语模子的对比中，ELF在检会token少近10倍、采样步数更少的情况下，反而拿到了更低的生成困惑度。

可以说，在当年很长一段时间里，扩散言语模子的阐扬，简直都发生在碎裂DLM（Discrete DLM）这一侧。

而ELF第一次解说了一件事：一语气的程序，不但能跑，况兼恶果可以。

ELF到底作念了什么

措施悟ELF，先得雄厚扩散言语模子当今到底在作念什么。

扩散言语模子，主要有两种时期门路。一是以MDLM、Duo为代表的碎裂派，胜利在token空间作念扩散，每一步处理的是碎裂当场变量。

二是包括Diffusion-LM、CDCD、DiffuSeq在内的一语气魄，把token映成一语气embedding，在一语气空间里去噪。

此前的磋磨中，像MDLM、LLaDA、Dream 7B这些碎裂门路占据了优势。原因是很陋劣，因为言语自身便是碎裂的。

关于这一看似学问的雄厚，恺明团队给出的判断适值相背——

问题可能不是“言语必须碎裂”，问题可能是：前东说念主根底莫得让一语气门路，一语气到底。

Diffusion-LM这一类的程序诚然在embedding空间去噪，但每一步都要算一次token-level的交叉熵，把一语气轨迹一齐绑在词表上。

其后的LD4LG、Cosmos走latent diffusion门路，去噪过程是一语气了，但要单独训一个decoder把latent解回token，相配于多一个模块。

基于此，ELF把通盘denoising，全留在continuous embedding space；直到终末一步 t=1，才再行投回token。

具体来说，ELF在检会时，碎裂token先被编码成一语气embedding，再加噪成 z_t，模子要么精良把它归附成干净embedding（MSE），要么胜利揣度token（CE）。

推理时，模子从高斯噪声 z_0 启航，一齐在一语气空间里去噪，直到终末一步，才切到decode花式，把embedding再行投回token。

ELF第一次把“一语气暗示”和“碎裂输出”这两个当年总被觉得必须反复对皆的问题，透彻终止了：

中间的去噪，绝对交给一语气空间；最终的言语生成，只留到终末一步碎裂化。

莫得每一步都往词表上硬对皆，也不需要特殊检会一个decoder，所有生成经过第一次的确作念到了：

一语气便是一语气，碎裂便是碎裂。

而这，适值亦然ELF后头能用更少采样步数、更少检会token，却跑赢一众扩散言语模子的重要。

ELF不是“先扩散，再解码”。

在具体的达成上，ELF还惩处了三个问题：

token怎么变一语气？一语气里怎么去噪？终末又怎么变回token？

把token形成一语气embedding

要把一语气扩散用在言语上，第一步，得先把碎裂的token形成一语气暗示。

论文中，ELF先把它切成token序列，再映射到一语气embedding空间。这里具体怎么映射，其实有多种选拔。

默许情况下，ELF用的是T5预检会encoder，生成双向的contextual embedding。论文后头也测试了jointly trained embedding和当场embedding等不同有琢磨。

值得防御的是，这个encoder只在检会阶段使用，推理时并不会特殊增多模块。

在一语气embedding空间里作念Flow Matching

拿到一语气暗示之后，ELF就在embedding空间里作念Flow Matching。

陋劣说，Flow Matching界说了一条从噪声到的确数据的一语气流动轨迹：

t=0时，是高斯噪声；t=1时，是干净的embedding；中间通盘景况，都是两者的线性插值，也便是论文里的rectified flow。

在传统Flow Matching，蚁集频频胜利揣度“速率场” v。

但ELF莫得这样作念，而是沿用了恺明团队半年前在《Back to Basics: Let Denoising Generative Models Denoise》里提议的想路——

胜利揣度干净embedding x，也便是x-prediction。

检会看法，便是最小化揣度embedding和的确embedding之间的均方差错（MSE）。

至于为什么采纳x-prediction，论文给了两个原因：

第一，它在高维暗示上更踏实——比如768维致使更高的token embedding；第二，它自然和终末一步“揣度干净token”的看法对皆。

论文还稀奇提到：诚然表面上也可以先揣度速率v，再换算成x，但这样一来，后头denoising和decoding之间的权重分享就很难拓荒。

现实上，他们也发现：一朝分享权重，v-prediction恶果显豁变差。

从一语气embedding，再回到碎裂token

生成言语，最终输出照旧碎裂token。

是以ELF只在终末一个时间步（t = 1），还得把一语气embedding再行投回token空间。

不外，这一步ELF莫得像好多latent diffusion程序那样，特殊检会一个decoder。相背，它把终末一步胜利视作：

一次continuous-to-discrete decoding。

换句话说：decoder和前边的denoiser，其实是并吞个蚁集。

为了让终末一步检会不至于太陋劣（因为表面上t→1时，输入仍是终点接近干净embedding），ELF在终末一步特殊加入了一次token-level corruption，构造出一个带扰动的输入。

随后，并吞个蚁集输出clean embedding，再通过一个可学习的unembedding矩阵 W，投影成token logits。

检会看法，则是模范的token-level cross-entropy loss。所有蚁集分享并吞套参数，并特殊剿袭一个二值的mode token：去噪花式/解码花式。

推理时，ELF从高斯噪声开动一齐在一语气空间里去噪，直到终末一步 t = 1，才切换到decode花式，再通过argmax输出最终token。

值得一提的是，在ELF中，图像生成里最常用的时期之一，CFG（classifier-free guidance）也被搬过来了

ELF用self-conditioning看成条目信号，套上training-time CFG（一次forward模拟两次推理，莫得inference支出），把图像那儿的有琢磨胜利搬了过来。

现实对比

现实部分，ELF基本回应了一个当年两年一直悬着的问题：

一语气扩散言语模子，到底能不行打？谜底是：不但能打，况兼第一次在质地、速率、检会老本三个维度同期赢。

如开头所说，在OpenWebText生成任务中，在不作念蒸馏的情况下，ELF只用32步采样，就把生成困惑度压到了24。

而此前主流的碎裂扩散模子，往往要跑到1024步，才能接近这个水平。

更夸张的是，ELF达成这一限定时，检会token只用了45B。

而同级别敌手，多数是500B+。换句话说：采样步数少了一个数目级，检会数据也少了一个数目级，恶果反而更好。

而在好多扩散模子最容易掉队的条目生成任务上，ELF也没掉链子。

不论是WMT14机器翻译，照旧XSum文本摘记，ELF都踏实越过现存扩散言语模子，致使把不少自纪念baseline也压了下去。

论文终末给出的总结其实很克制：ELF在生成质地、采样遵循和检会老本之间，达成了很强的trade-off。

翻译成东说念主话便是：一语气魄，不是不行打。仅仅以前没把一语气这件事作念到底。

作家先容

终末，咱们再来先容一下这篇著作的作家。

这篇论文的两篇一作是共同孝顺，排行先后限定由硬币决定。

胡珂雅，她是这篇著作的两位第一作家之一，MIT EECS一年岁博士生，亦然恺明在MIT带的第一批博士生之一，现时由恺明和Jacob Andreas皆集劝诱。

她本科毕业于上交的ACM班，现时的磋磨意思主如果言语和视觉的交叉范围，勤奋于构建数据遵循更高、泛化身手更强的智能体。

值得一提的是，在恺明MIT的主页中，胡珂雅排在Grad students第一位，可以说是组内的各人姐了。

第二位第一作家Linlu Qiu，相似是MIT的博士生，师从Yoon Kim。

她本科毕业于香港大学，硕士毕业于Georgia Institute of Technology，此前还在Google作念过AI Resident。

有利思的是，这并不是她第一次和恺明联贯。就在不久前，她还和恺明团队所有拿下了CVPR 2026论文《ARC Is a Vision Problem!》，把ARC推理问题再行界说成了视觉问题。

另一位作家Hanhong Zhao（赵瀚宏）为MIT本科生，他高中就读于东说念主大附中，曾是外洋物理奥林匹克竞赛IPhO金牌得主。

还有一位作家陆伊炀，配景有点“少年班滋味”。

他是清华姚班大二本科生，现时在MIT操办机科学与东说念主工智能现实室（CSAIL）实习，导师是何恺明，主要磋磨标的为操办机视觉和深度生成模子。

高中时期，他是物理竞赛生，曾以江苏选手中第别称、天下第九名的获利，在2022年赢得了第三十九届天下中学生物理竞赛（CPhO）金牌。

此前，他以一作身份与恺明联贯过论文《Bidirectional Normalizing Flow: From Data to Noise and Back》。

另一位中枢作家黎天鸿，则是恺明组的博后。

他本科就读于清华姚班，博士毕业于MIT，半年前那篇《Back to Basics: Let Denoising Generative Models Denoise》的一作，便是他。

此外，论文的其他作家Yoon Kim、Jacob Andreas，MIT EECS两位言语模子标的的西宾，以及何恺明本东说念主。

参考贯串

[1]https://arxiv.org/pdf/2605.10938

— 完 —

量子位 QbitAI · 头条号签约

和蔼咱们买球下单平台，第一时间获知前沿科技动态