
文本摘记当作天然言语处理(NLP)的中枢任务中卫不锈钢保温施工队,其质地评估相通需要兼顾致(Consistency)、连贯(Coherence)、运动(Fluency)和相关(Relevance)等多个维度。
然则,在内容化过程中,开拓者相通面对"移东补西"的逆境:升迁了相关,致可能随之下落。奈何让模子在多个场所之间达成的"帕累托"(Pareto optimal)?
近日,Li Auto 团队项被ICASSP 2026接管的打算提倡了HyperVolume Optimization(HVO)。这是种全新的多场所强化学习(MORL)政策,它基于 GRPO 框架,需 SFT 或冷启动,就能让 7B 参数的模子在摘记任务上展现出忘形 GPT-4 的能,且生成内容加精真金不怕火。
△ HVO 能对比雷达图打算配景核肉痛点:多场所化的"不屈衡"
文本摘记生成是天然言语处理(NLP)中的项中枢且具有挑战的任务。为了评估生成摘记的质地,打算东说念主员相通会锻真金不怕火多个维度,举例连贯、致、运动和相关。然则,同期化这些维度的场所具有挑战,因为在个维度上的改造可能会致其他维度的和洽,从而产生不屈衡的摘记。
当今的文本摘记打算多依赖单励信号,难以整多维度磋议。即便接管多维度励,相通也仅仅简便地将各项得分进行加权线组(Weighted Linear Combination)。
传统法的局限
这种传统作念法存在彰着局限:
1. 东说念主工依赖:需要繁琐的手动树立权重
2. 场所突破:法有处理场所间的互相依赖,容易致化服从不齐备或严重失衡
此前虽有 MDO 等法尝试通过梯度投影缓解突破,但因计算资本过,难以集成到大言语模子(LLM)中。
法先容转变案:引入体积磋议 HVO
为了处理上述问题,打算者将多场所化中的体积(Hypervolume)见地引入到了强化学习的励结构中。
HVO 的三大时间亮点
1. 基于 GRPO 框架
鉴戒了近似 DeepSeek-R1-Zero 的教师范式,HVO 凯旋在基础模子上应用组相对政策化(GRPO),需经过监督微调(SFT)。
其中:
2. 动态休养得分
HVO 应用体积法,在强化学习过程中动态休养不同得分组之间的权重,铁皮保温引模子冉冉靠拢帕累托前沿。
3. 长度管制机制
为处理 GRPO 教师中常见的雄厚不及和"长度坍缩"问题,HVO 提倡了种新的长度管制励(Rconciseness),通过胁制压缩比确保模子在精真金不怕火的同期保手雄厚握住。
法经过图
△ HVO 全体经过暗示图。通过体积计算替代简便的加权乞降,使模子倾向于遴荐各维度发达平衡的解。执行服从:7B 模子的"降维击"
打算团队在CNN/DailyMail(新闻类)和BillSum(法律类)两大基准数据集上对 HVO 进行了考证。执行基座接管Qwen 2.5-7B-Instruct。
1. 综修养越 GPT-4
在多维度评估器用 UniEval 的测试中,经过 HVO 增强的 7B 模子发达惊东说念主:
在两个数据集上的 HV 得分和总分均于统统基准法
对比 GPT-4:天然 GPT-4 在连贯和相关上有狭窄势,但 Qwen 2.5 7B(HVO)在全体能和维度平衡上与 GPT-4 旗饱读相配
2. 平衡的雷达图发达
对比 GRPO 发现,GRPO 在教师早期会过度追求运动和相关,从而规矩了致的升迁。而HVO 概况均匀地化各项磋议,在雷达图上展现出填塞、雄厚的粉饰区域。
3. 拒"谣言",加精真金不怕火
散点图分析清晰,HVO 在保手总分的同期,生成的摘记长度短,展现了佳的精真金不怕火(Conciseness)。
论断与预测中枢孝顺
本文先容了体积化强化学习法(HVO),这是种用于文本摘记的多场所强化学习框架,可在维场所空间中凯旋化体积磋议。通过平衡多个评估量划,HVO 罢显着雄厚、地向帕累托前沿靠拢的轨迹。
执行考证
在 CNN/DailyMail 和 BillSum 上的执行标明,HVO 获取了的体积和全体分数,于现存法,且可与 GPT-4 相忘形,需监督微调或冷启动运行化。
打算意旨
这些服从说明了 HVO 在处理复杂量度和生成质地摘记面的有,为多场所文本摘记提供了个谨慎的处理案。它解说了通过科学的化政策,较小限制的开源模子有后劲在特定任务上对标顶闭源大模子。
改日向
打算团队线路,改日将探索:
将 HVO 彭胀到多 NLP 任务
探索复杂的励结构
在大限制模子上的应用后劲
邮箱:215114768@qq.com论文标题:
Hypervolume Optimization via Multi-Objective Reinforcement Learning for Balanced Text Summarization
论文地址:
https://arxiv.org/abs/2510.19325
代码仓库:
https://github.com/ai4business-LiAuto/HVO ⭐ 已开源
收录会议:
ICASSP 2026
键三连「点赞」「转发」「预防心」
接待在指摘区留住你的思法!
— 完 —
咱们正在招聘名眼疾手快、矜恤 AI 的学术裁剪实习生 � �
感兴致的小伙伴接待矜恤 � � 了解笃定
� � 点亮星标 � �
科技前沿进展逐日见中卫不锈钢保温施工队
相关词条:铁皮保温施工 隔热条设备 锚索 离心玻璃棉 万能胶生产厂家