首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

结合MORL与约束螺栓学习规范行为

用户11764306

在NRBs的基础上,我们引入了有序规范约束螺栓,这是一个指导强化学习智能体遵守社会、法律和伦理规范的框架,同时解决了NRBs的局限性。在这种方法中,每个规范都被...

5110

Traffic-R1:让红绿灯也会“思考”的通用信控大模型

时空探索之旅

论文标题:Traffic-R1: Reinforced LLMs Bring Human-Like Reasoning to Traffic Signal Co...

9710

从零开始训练大模型的 4 个阶段,清晰讲解(含可视化)

Ai学习的老章

你问它“什么是 LLM?”,得到的却是像“try peter hand and hello 448Sn”这样的胡言乱语。

21820

强化学习人类反馈训练新方法解析

用户11764306

在今年的国际学习表征会议(ICLR)上,我们提出了一种限制伪相关性的方法,称为SeRA(自审查与对齐)。首先,在人类标注数据上进行第一轮RLHF后,我们使用大语...

7110

机器人快速适应新任务的元强化学习技术

用户11764306

强化学习是一种人工智能代理与环境交互并根据获得的奖励学习策略的技术。虽然强化学习在Atari等游戏中已展现人类水平的表现,但将其应用于现实场景(如装配线机器人或...

12710

强化学习中慢速网络学习更快

用户11764306

在强化学习(RL)中,较慢的网络反而能够更快地学习——当在深度强化学习中优化新解决方案时,如果优化器倾向于先前的解决方案,则会有所帮助。

12210

学习率调度算法的强化学习优化

用户11764306

基于此,研究采用强化学习(RL)框架自动生成学习率调度策略。在NMF任务中,RL生成的调度程序优于步进衰减等启发式方法,证明了元学习调度在简化领域的可行性。

10910

科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生

机器之心

而强化学习则是在后训练中不可或缺的核心部分。关于强化学习的理解,我们可以参考先前编译的来自 Unsloth 团队的文章。

47210

打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner

机器之心

人工智能的浪潮正将我们推向一个由 RAG 和 AI Agent 定义的新时代。然而,要让这些智能体真正「智能」,而非仅仅是信息的搬运工,就必须攻克一个横亘在所有...

21010

Agentic Deep Research新范式,推理能力再突破,可信度增加,蚂蚁安全团队出品

机器之心

现存最先进的 Agentic Deep Research 系统往往基于由可验证结果奖励指导的强化学习训练,尽管该训练范式带来了显著的性能收益,但仍存在以下核心问...

15110

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

机器之心

自 OpenAI o1 系列模型问世以来,基于「可验证奖励」的强化学习(RLVR)已成为提升大模型推理能力的主流。通过海量的数学题、代码题进行训练,AI 在客观...

11710

生成式AI购物助手技术架构解析

用户11764306

与大多数基于通用数据集训练后再进行领域定制的大语言模型不同,该项目从初始阶段就专注于使用购物数据进行训练。训练数据涵盖整个商品目录、用户评论以及社区问答内容,科...

12210

GRPO强化学习算法,究竟如何让AI从‘模仿’走向‘思考’?如何让AI具备真正的推理能力,而不仅仅是模仿?

三桥君

本文三桥君将深入探讨GRPO强化学习算法的核心原理、应用场景及其优势,帮助你理解AI如何从 “模仿” 迈向 “思考”,并为AI产品经理提供实践指导。

16710

【三桥君】如何让AI从简单的记忆型模型进化为具备深度推理能力的‘学霸’?—— 解析提升AI推理能力的四大核心技术

三桥君

通过推理时间扩展、纯强化学习、标注数据 + 强化学习、知识蒸馏四大核心技术,AI的推理能力得到了显著提升。未来,三桥君认为AI将不再是简单的工具,而是能够与人类...

17110

强化学习在广告推荐中的技术应用

用户11764306

某中心商店如何确定向客户展示哪些产品和优惠?部分答案涉及强化学习——这是一种机器学习方法,智能体通过逐步学习策略集以实现奖励最大化。某中心广告部门的高级首席应用...

16710

强化学习前沿:多智能体RL的博弈均衡求解与算法探索

用户6320865

传统强化学习研究主要聚焦于单个智能体在孤立环境中的决策问题,其核心是马尔可夫决策过程(MDP)框架下的最优策略求解。然而随着人工智能应用场景的复杂化,2020年...

64110

强化学习前沿探索:元强化学习的MAML框架、任务分布的二阶梯度优化与上下文编码的注意力机制

用户6320865

强化学习作为机器学习领域的重要分支,其核心思想是通过智能体与环境的交互学习最优策略。2025年的今天,这一技术已从最初的游戏领域扩展到机器人控制、金融决策、医疗...

29710

强化学习前沿探索:逆向强化学习的最大熵模型与GAIL的生成对抗训练

用户6320865

在人工智能领域,强化学习(Reinforcement Learning, RL)作为机器学习的重要分支,近年来取得了突破性进展。2025年的今天,强化学习已从最...

30810

深入解析分层强化学习:选项框架、子策略终止条件与MaxQ算法

用户6320865

在传统强化学习框架中,智能体通过试错学习直接与环境交互,这种“扁平化”的决策模式在面对复杂任务时往往陷入维度灾难。2023年《软件学报》的研究指出,当状态空间维...

22410
领券