联系鑫诚

发布日期：2026-02-16 19:23 点击次数：119

中卫不锈钢保温施工队给GRPO加上运筹外挂让7B模子并排GPT-4！Li Auto团队发布多场所强化学习新框架

文本摘记当作天然言语处理（NLP）的中枢任务中卫不锈钢保温施工队，其质地评估相通需要兼顾致（Consistency）、连贯（Coherence）、运动（Fluency）和相关（Relevance）等多个维度。

然则，在内容化过程中，开拓者相通面对"移东补西"的逆境：升迁了相关，致可能随之下落。奈何让模子在多个场所之间达成的"帕累托"（Pareto optimal）？

近日，Li Auto 团队项被ICASSP 2026接管的打算提倡了HyperVolume Optimization（HVO）。这是种全新的多场所强化学习（MORL）政策，它基于 GRPO 框架，需 SFT 或冷启动，就能让 7B 参数的模子在摘记任务上展现出忘形 GPT-4 的能，且生成内容加精真金不怕火。

△ HVO 能对比雷达图打算配景核肉痛点：多场所化的"不屈衡"

文本摘记生成是天然言语处理（NLP）中的项中枢且具有挑战的任务。为了评估生成摘记的质地，打算东说念主员相通会锻真金不怕火多个维度，举例连贯、致、运动和相关。然则，同期化这些维度的场所具有挑战，因为在个维度上的改造可能会致其他维度的和洽，从而产生不屈衡的摘记。

当今的文本摘记打算多依赖单励信号，难以整多维度磋议。即便接管多维度励，相通也仅仅简便地将各项得分进行加权线组（Weighted Linear Combination）。

传统法的局限

这种传统作念法存在彰着局限：

1. 东说念主工依赖：需要繁琐的手动树立权重

2. 场所突破：法有处理场所间的互相依赖，容易致化服从不齐备或严重失衡

此前虽有 MDO 等法尝试通过梯度投影缓解突破，但因计算资本过，难以集成到大言语模子（LLM）中。

法先容转变案：引入体积磋议 HVO

为了处理上述问题，打算者将多场所化中的体积（Hypervolume）见地引入到了强化学习的励结构中。

HVO 的三大时间亮点

1. 基于 GRPO 框架

鉴戒了近似 DeepSeek-R1-Zero 的教师范式，HVO 凯旋在基础模子上应用组相对政策化（GRPO），需经过监督微调（SFT）。

其中：

2. 动态休养得分

HVO 应用体积法，在强化学习过程中动态休养不同得分组之间的权重，铁皮保温引模子冉冉靠拢帕累托前沿。

3. 长度管制机制

为处理 GRPO 教师中常见的雄厚不及和"长度坍缩"问题，HVO 提倡了种新的长度管制励（Rconciseness），通过胁制压缩比确保模子在精真金不怕火的同期保手雄厚握住。

法经过图

△ HVO 全体经过暗示图。通过体积计算替代简便的加权乞降，使模子倾向于遴荐各维度发达平衡的解。执行服从：7B 模子的"降维击"

打算团队在CNN/DailyMail（新闻类）和BillSum（法律类）两大基准数据集上对 HVO 进行了考证。执行基座接管Qwen 2.5-7B-Instruct。

1. 综修养越 GPT-4

在多维度评估器用 UniEval 的测试中，经过 HVO 增强的 7B 模子发达惊东说念主：

在两个数据集上的 HV 得分和总分均于统统基准法

对比 GPT-4：天然 GPT-4 在连贯和相关上有狭窄势，但 Qwen 2.5 7B（HVO）在全体能和维度平衡上与 GPT-4 旗饱读相配

2. 平衡的雷达图发达

对比 GRPO 发现，GRPO 在教师早期会过度追求运动和相关，从而规矩了致的升迁。而HVO 概况均匀地化各项磋议，在雷达图上展现出填塞、雄厚的粉饰区域。

3. 拒"谣言"，加精真金不怕火

散点图分析清晰，HVO 在保手总分的同期，生成的摘记长度短，展现了佳的精真金不怕火（Conciseness）。

论断与预测中枢孝顺

本文先容了体积化强化学习法（HVO），这是种用于文本摘记的多场所强化学习框架，可在维场所空间中凯旋化体积磋议。通过平衡多个评估量划，HVO 罢显着雄厚、地向帕累托前沿靠拢的轨迹。

执行考证

在 CNN/DailyMail 和 BillSum 上的执行标明，HVO 获取了的体积和全体分数，于现存法，且可与 GPT-4 相忘形，需监督微调或冷启动运行化。

打算意旨

这些服从说明了 HVO 在处理复杂量度和生成质地摘记面的有，为多场所文本摘记提供了个谨慎的处理案。它解说了通过科学的化政策，较小限制的开源模子有后劲在特定任务上对标顶闭源大模子。

改日向

打算团队线路，改日将探索：

将 HVO 彭胀到多 NLP 任务

探索复杂的励结构

在大限制模子上的应用后劲

邮箱：215114768@qq.com

论文标题：

Hypervolume Optimization via Multi-Objective Reinforcement Learning for Balanced Text Summarization

论文地址：

https://arxiv.org/abs/2510.19325

代码仓库：

https://github.com/ai4business-LiAuto/HVO ⭐ 已开源

收录会议：

ICASSP 2026

键三连「点赞」「转发」「预防心」

接待在指摘区留住你的思法！

— 完 —

咱们正在招聘名眼疾手快、矜恤 AI 的学术裁剪实习生 � �

感兴致的小伙伴接待矜恤 � � 了解笃定

� � 点亮星标 � �

科技前沿进展逐日见中卫不锈钢保温施工队

相关词条:铁皮保温施工隔热条设备锚索离心玻璃棉万能胶生产厂家

上一篇：黑河铁皮保温 2026房产买过户子女慎选！这些坑踩了亏马上避

下一篇：铜陵罐体保温厂家阿里纳斯：湖东说念主摈弃日操作不格，用场均6分的换8分的有什么用

推荐资讯

中卫不锈钢保温施工队 给GRPO加上运筹外挂让7B模子并排GPT-4！Li Auto团队发布多场所强化学习新框架

推荐资讯

中卫不锈钢保温施工队给GRPO加上运筹外挂让7B模子并排GPT-4！Li Auto团队发布多场所强化学习新框架