联系鑫诚
发布日期:2026-02-16 19:23 点击次数:119

中卫不锈钢保温施工队 给GRPO加上运筹外挂让7B模子并排GPT-4!Li Auto团队发布多场所强化学习新框架

铁皮保温施工

文本摘记当作天然言语处理(NLP)的中枢任务中卫不锈钢保温施工队,其质地评估相通需要兼顾致(Consistency)、连贯(Coherence)、运动(Fluency)和相关(Relevance)等多个维度。

然则,在内容化过程中,开拓者相通面对"移东补西"的逆境:升迁了相关,致可能随之下落。奈何让模子在多个场所之间达成的"帕累托"(Pareto optimal)?

近日,Li Auto 团队项被ICASSP 2026接管的打算提倡了HyperVolume Optimization(HVO)。这是种全新的多场所强化学习(MORL)政策,它基于 GRPO 框架,需 SFT 或冷启动,就能让 7B 参数的模子在摘记任务上展现出忘形 GPT-4 的能,且生成内容加精真金不怕火。

△ HVO 能对比雷达图打算配景核肉痛点:多场所化的"不屈衡"

文本摘记生成是天然言语处理(NLP)中的项中枢且具有挑战的任务。为了评估生成摘记的质地,打算东说念主员相通会锻真金不怕火多个维度,举例连贯、致、运动和相关。然则,同期化这些维度的场所具有挑战,因为在个维度上的改造可能会致其他维度的和洽,从而产生不屈衡的摘记。

当今的文本摘记打算多依赖单励信号,难以整多维度磋议。即便接管多维度励,相通也仅仅简便地将各项得分进行加权线组(Weighted Linear Combination)。

传统法的局限

这种传统作念法存在彰着局限:

1. 东说念主工依赖:需要繁琐的手动树立权重

2. 场所突破:法有处理场所间的互相依赖,容易致化服从不齐备或严重失衡

此前虽有 MDO 等法尝试通过梯度投影缓解突破,但因计算资本过,难以集成到大言语模子(LLM)中。

法先容转变案:引入体积磋议 HVO

为了处理上述问题,打算者将多场所化中的体积(Hypervolume)见地引入到了强化学习的励结构中。

HVO 的三大时间亮点

1. 基于 GRPO 框架

鉴戒了近似 DeepSeek-R1-Zero 的教师范式,HVO 凯旋在基础模子上应用组相对政策化(GRPO),需经过监督微调(SFT)。

其中:

2. 动态休养得分

HVO 应用体积法,在强化学习过程中动态休养不同得分组之间的权重,铁皮保温引模子冉冉靠拢帕累托前沿。

3. 长度管制机制

为处理 GRPO 教师中常见的雄厚不及和"长度坍缩"问题,HVO 提倡了种新的长度管制励(Rconciseness),通过胁制压缩比确保模子在精真金不怕火的同期保手雄厚握住。

法经过图

△   HVO 全体经过暗示图。通过体积计算替代简便的加权乞降,使模子倾向于遴荐各维度发达平衡的解。执行服从:7B 模子的"降维击"

打算团队在CNN/DailyMail(新闻类)和BillSum(法律类)两大基准数据集上对 HVO 进行了考证。执行基座接管Qwen 2.5-7B-Instruct。

1. 综修养越 GPT-4

在多维度评估器用 UniEval 的测试中,经过 HVO 增强的 7B 模子发达惊东说念主:

在两个数据集上的 HV 得分和总分均于统统基准法

对比 GPT-4:天然 GPT-4 在连贯和相关上有狭窄势,但 Qwen 2.5 7B(HVO)在全体能和维度平衡上与 GPT-4 旗饱读相配

2. 平衡的雷达图发达

对比 GRPO 发现,GRPO 在教师早期会过度追求运动和相关,从而规矩了致的升迁。而HVO 概况均匀地化各项磋议,在雷达图上展现出填塞、雄厚的粉饰区域。

3. 拒"谣言",加精真金不怕火

散点图分析清晰,HVO 在保手总分的同期,生成的摘记长度短,展现了佳的精真金不怕火(Conciseness)。

论断与预测中枢孝顺

本文先容了体积化强化学习法(HVO),这是种用于文本摘记的多场所强化学习框架,可在维场所空间中凯旋化体积磋议。通过平衡多个评估量划,HVO 罢显着雄厚、地向帕累托前沿靠拢的轨迹。

执行考证

在 CNN/DailyMail 和 BillSum 上的执行标明,HVO 获取了的体积和全体分数,于现存法,且可与 GPT-4 相忘形,需监督微调或冷启动运行化。

打算意旨

这些服从说明了 HVO 在处理复杂量度和生成质地摘记面的有,为多场所文本摘记提供了个谨慎的处理案。它解说了通过科学的化政策,较小限制的开源模子有后劲在特定任务上对标顶闭源大模子。

改日向

打算团队线路,改日将探索:

将 HVO 彭胀到多 NLP 任务

探索复杂的励结构

在大限制模子上的应用后劲

邮箱:215114768@qq.com

论文标题:

Hypervolume Optimization via Multi-Objective Reinforcement Learning for Balanced Text Summarization

论文地址:

https://arxiv.org/abs/2510.19325

代码仓库:

https://github.com/ai4business-LiAuto/HVO ⭐ 已开源

收录会议:

ICASSP 2026

键三连「点赞」「转发」「预防心」

接待在指摘区留住你的思法!

—  完  —

咱们正在招聘名眼疾手快、矜恤 AI 的学术裁剪实习生  � �

感兴致的小伙伴接待矜恤 � �  了解笃定

� � 点亮星标 � �

科技前沿进展逐日见中卫不锈钢保温施工队

相关词条:铁皮保温施工     隔热条设备     锚索    离心玻璃棉    万能胶生产厂家
推荐资讯
友情链接: