大谈话模子长序列文本生奏遵循新顽固——色中色影院
生成 10 万 Token 的文本,传统自回顾模子需要近 5 个小时,刻下仅需 90 分钟!
最新询查提议了一个名为TOKENSWIFT 框架,从模子加载、KV 缓存管制到 Token 生成战略进行了全处所的优化。
实验完毕阐发,该才略不仅能大幅提高生奏遵循,更在保证生成质地和各种性上杀青了无损加快。
况兼辅助 R1-Distill,团队发布经过微调的 DeepSeek-R1-Distill-Qwen-32B 模子,雷同具备 3 倍加快效果。
来看 demo 展示:
本询查由来自北京通用东谈主工智能询查院的团队完成,以下是更多细节。
TOKENSWIFT 框架长啥样?
跟着 LLMs 长荆棘文窗口智力的不休提高,复杂任务对超长文本生成的需求越来越高。传统的自回顾(AR)生成形势诚然在漫笔本上进展邃密,但在长文本生成中存在显然瓶颈,主要体刻下以下三个方面:
模子常常加载问题
由于自回顾生成每生成一个 Token 齐需要从 GPU 存储中从头加载模子权重,导致 I/O 操作常常、蔓延高。在生成 10 万 Token 时,模子需要重迭加载上万次,严重拖慢举座生成速率。
KV 缓存的动态管制
生成超长文本过程中,模子里面的键值对(KV Cache)不休增长,若径直使用全量 KV 缓存,不仅超出内存预算,还会大幅增多酌量时候。如安在保证关键信息不丢失的前提下,杀青 KV 缓存的高效更新成为一浩劫题。
重迭性生成
长序列生成易出现重迭和冗余问题,影响文本的各种性和质地。诚然重迭问题并不管文的主要聚焦点,但在超长文本生成中照旧需要有用逼迫。
为责罚上述不毛,论文提议了 TOKENSWIFT ——一个全新的框架,旨在杀青无损加快超长序列生成,其主要翻新点体刻下以下几个方面:
1)多 Token 并行生成与 Token 复用
大奶美女论文模仿了 Medusa 等才略,通过引入迥殊的线性层,使模子在一次前向传播中大略同期生成多个草稿 Token。
更遑急的是,基于生成文本中的 n-gram 频率信息,系统会自动检索并复用高频短语,从而进一步减少模子从头加载的次数,提高举座遵循。
2)动态 KV 缓存更新战略
在 KV 缓存管制上,TOKENSWIFT 继承动态更新战略。系统在生成过程中将启动 KV 缓存保留,同期证据 Token 的遑急性对后续缓存进行有序替换。
这种形势不仅有用为止了缓存的范围,还确保了关键信息遥远被保存,大幅镌汰了因缓存加载带来的蔓延。
3)基于树结构的多候选 Token 考证
为保证生成完毕与主张模子瞻望的一致性,TOKENSWIFT 引入了树形注重力机制。
通过构建包含多个候选 Token 组合的树形结构,并继承并行考证的形势,从中赶紧聘请最长且有用的 n-gram 看成最终输出,确保生成过程无损且各种性得回提高。
4)荆棘文刑事包袱战略
为了进一步逼迫重迭生成问题,论文缱绻了一种荆棘文刑事包袱才略。该才略在生成过程中为近期生成的 Token 施加刑事包袱,使得模子在聘请下一 Token 时更倾向于各种化输出,从而有用减少重迭表象。
TOKENSWIFT 效果怎么?
实验部分,论文在多种模子架构(包括 MHA 和 GQA)及不同范围(1.5B、7B、8B、14B)上进行了充分测试。
完毕标明,TOKENSWIFT 在生成 10 万 Token 长序列时,相较于传统自回顾才略,平均杀青了 3 倍以上的加快,且生成完毕在准确性和各种性上基本保执无损。
1)加快效果
实验数据泄漏,在 LLaMA3.1-8B 模子下,传统 AR 生成 10 万 Token 约需 4.9 小时,而使用 TOKENSWIFT 后仅需 90 分钟,大幅从简时候。在 Qwen2.5-14B 时,传统 AR 生成 10 万 Token 更是达到了 7.9 小时,加快后仅需 142 分钟。这一遵循关于试验欺诈中需要实时或高效长文本生成的场景具有遑急意旨。
2)考证率与经受率
论文缱绻了多项方针来评估生成质地,包括 Token 经受率和 Distinct-n 方针。完毕标明,TOKENSWIFT 不仅在速率上显耀逾越,还能在保执无损生成的前提下,有用提高文本的各种性。
消融实验与案例分析
在深入意会 TOKENSWIFT 各模块孝敬的过程中,论文还进行了全面的消融实验和案例分析,为优化决策提供了充分依据。
消融实验:关键组件的作用
Token 复用消融:实验中将 Token 复用参数设为 0(即不复用),完毕泄漏,经受率和生成速率均显耀着落,标明复用机制在减少模子加载次数、提高举座遵循方面阐述了关键作用。
KV 缓存更新战略对比:询查对比了全量缓存、一次性更新和动态更新三种决策。完毕标明,全量缓存诚然在经受率上略占上风,但其高酌量支拨使得举座加快效果不睬念念;而一次性更新则因缓存推广导致性能着落。动态更新战略则在保执高经受率的同期,杀青了最好的速率与资源均衡。
荆棘文刑事包袱效果:在不同采样才略下,加入荆棘文刑事包袱后,生成文本的 Distinct-n 方针显然提高。
举例,在 min-p 采样场景下,Distinct-n 平均得分从 0.12 提高至 0.69,仅带来约 8% 的速率亏本,充分考证了该战略在逼迫重迭生成方面的有用性。
案例分析:真正生成对比
论文还对比了在有无荆棘文刑事包袱条目下生成文本的互异,案例分析完毕令东谈主印象久了:
重迭表象的逼迫:在未使用荆棘文刑事包袱时,生成文本在大要 5K Token 处就出现显然重迭,且多为逐字重迭;而继承荆棘文刑事包袱后,重迭问题显然蔓延至约 60K Token,且重迭部分多进展为语义线索上的相似,而非径直复制,举座文本连贯性和可读性大幅改善。
文本色量的提高:案例对比泄漏,使用好意思满 TOKENSWIFT 过程的生成完毕在逻辑连贯性、抒发各种性和翻新性方面均优于传统才略,为试验欺诈提供了更高质地的文本输出。
通过这些消融实验和案例分析,论文不仅阐发了各关键本事模块的遑急性,也为后续优化指明了主张,充分体现了 TOKENSWIFT 在超长文本生成范围的先进性和实用性。
Arxiv:https://arxiv.org/abs/2502.18890
Github:https://github.com/bigai-nlco/TokenSwift
Blog:https://bigai-nlco.github.io/TokenSwift/
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 表情主页勾通,以及联系形势哦
咱们会(尽量)实时酬金你
一键温雅 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「小心心」
接待在评述区留住你的念念法!色中色影院