400 128 6709

行业新闻

软件所提出基于信息论的大模型强化学习微调框架

发布时间:2025-10-23点击次数:

中国科学院软件研究所天基综合信息系统全国重点实验室的研究团队围绕大语言模型(llms)在复杂推理任务中的性能优化问题,提出了一种创新的强化微调框架——learning to think (l2t)。该框架基于信息论原理,致力于在提升模型推理能力的同时优化计算效率,为大语言模型在实际场景中的高效推理提供了全新的技术思路。

相关研究成果论文 Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs 已被人工智能领域顶级会议NeurIPS 2025接收并发表。论文的第一作者分别为博士生王婧瑶、副研究员强文文以及博士生宋泽恩。

近年来,随着大语言模型能力的持续增强,其应用已逐步从简单的文本生成扩展至需要多步逻辑推导的高难度任务。研究团队指出,当前大多数LLMs在处理此类复杂推理任务时,通常仅以最终输出结果作为奖励信号进行反馈训练,忽视了对中间推理过程的有效监督。这种机制容易导致模型生成大量无意义或重复的推理步骤,不仅消耗更多计算资源,还可能影响最终的推理准确性。

为解决这一问题,L2T框架首先将推理任务重新建模为一个多轮次、层次化的对话结构,并引入一种基于信息增益的过程奖励机制。该机制通过量化每一轮推理所带来的情报增量,结合改进的GRPO算法对模型策略进行精细化调整,有效激励关键推理行为,抑制无效或冗余输出,从而实现对整个推理路径的动态调控。

N世界 N世界

一分钟搭建会展元宇宙

N世界 138 查看详情 N世界

软件所提出基于信息论的大模型强化学习微调框架

在AIME、AMC和HumanEval等多个主流推理基准上的实验表明,L2T在多种规模的基础模型(如DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B等)上均展现出一致且显著的性能优势。与传统依赖结果奖励的方法相比,L2T在准确率方面提升了超过3.2%,同时推理过程的token使用效率提高了一倍;相较于其他过程奖励方法,L2T仍能实现约2%的准确率增益,效率提升达1.2倍。此外,在跨任务综合评估中,L2T在不同难度等级的任务上平均准确率提升接近3%,并在各种token预算条件下均保持稳定的领先表现。

以上就是软件所提出基于信息论的大模型强化学习微调框架的详细内容,更多请关注其它相关文章!


# 这一  # 怎么做淘宝营销推广  # 盒马烘焙营销推广方案  # 开封教育网站推广  # 石阡县营销推广报价表  # 江门网站建设个人  # 白云区网站关键词优化  # 邳州电商网站推广哪家好  # 手机怎么建设网站链接  # 沈阳放心的网站推广优化  # 内蒙古搜狗seo  # 多个  # 押注  # 人工智能  # 中国科学院  # 安全防护  # 开源  # 园区  # 美国  # 微软  # 帮你  # qwen  # 2025  # deepseek  # 大模型  # ai 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: Meta 推出 Quest 超级分辨率技术,让 VR 画面更清晰  Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙  Xbox游戏工作室负责人:VR/AR领域的用户规模还不足够  眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷  下一个前沿:量子机器学习和人工智能的未来  普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景  行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用  特斯拉门店可能启动机器人卖车?也许不是你想的那样  人工智能驱动智能建筑会是未来趋势吗?  华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力  VR健身应用《FitXR》将取消Quest 1端会员服务  寻求能源转型最优解  赋能金融新生态,多家银行创新应用成果亮相世界人工智能大会  日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病  猿力科技入选北京市通用人工智能产业创新伙伴计划  Midjourney创始人:AI应该成为人类思想的延伸  深剖Apple Vision Pro中暗藏的“AI”  为什么很多人对纽约《人工智能招聘法》感到生气?  GPT-4是如何工作的?哈佛教授亲自讲授  618京东3C数码趋势产品备受青睐 AR设备成交额同比增长15倍  常见的五个人工智能误解  精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*  微软大牛加入ZOOM,AI人才大战打响  麦肯锡:到 2045 年左右,将有 50% 工作被 AI 接管  AYANEO AIR 1S 掌机 7 月 9 日发布:R7 7840U + OLED 屏  上海发布大模型政策 打造AI“模”都  AI大举入侵内容行业,哪些上市*及动漫公司进行了布局?  大模型的“黄金搭档”来了!腾讯云正式发布AI原生向量数据库,提供10亿级向量检索能力  Dubbo负载均衡策略之 一致性哈希  走进首家“元宇宙”未来工厂,卡奥斯探知工业之旅出发!  零数科技CTO兰春嘉:区块链与人工智能的结合点在数据  如何用AI重塑你的工作流(一)  世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单  明略科技发布免费开源TensorBoard.cpp,促进大型模型的预训练工作  谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?  调研海尔智家:AI名,家电命?  网易易盾 AI Lab 论文入选 ICASSP 2025!黑科技让语音识别越“听”越准  电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC  跟着AI大热的“光模块”到底是什么?  V社谈AI制作游戏被ban:为确保开发者有素材所有权  机器人加速!稀土永磁也被带火,持续性如何?  AI工具助力公司实施每周4.5天工作制,带来巨大效益  泗洪:畅通城市“血管” ,管下机器人来帮忙  清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳  网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手  提升工作效率的智能工具:Zapier 让工作变得更简单!  财联社首档运用虚拟人技术播报栏目《AI半小时》今晚上线!敬请期待  消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  IBM将模拟计算用于人工智能,重塑AI计算 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司