首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

RouteRAG:用特殊 Token 和强化学习构建可学习的 RAG 检索策略

deephub

它不依赖固定的手工检索流水线或静态指令,而是学到一套策略:推理过程中的特殊 Token 可以触发检索动作。每一步,模型生成一个动作 Token——继续内部推理、...

3310

没产品没收入,投资人又给了 10 亿美金

数据微光

π*0.6(2025.11):给 π0 加了强化学习。以前模型只会模仿人类示范,现在能自己练习、自己进步。核心成果:任务完成效率翻倍。

2300

具身智能的 OpenAI,可能已经出现了

数据微光

博士期间,他听了谢尔盖·莱文(Sergey Levine)关于深度学习的演讲,当场决定换方向。从传统控制转向深度强化学习,相当于推翻自己之前所有的研究积累重新来...

3400

斯坦福引爆AI革命:Claude学会自己搞科研,写代码、跑实验、还能进化!

天意生信云

当AI不仅能提出想法,还能亲手把想法变成现实,并从失败中学习进化,科研的范式正在被悄然改写。

4910

强化学习算法解析:XGBoost(eXtreme Gradient Boosting) 算法原理、Kaggle 冠军首选、全手动计算全解释

jack.yang

关键词:机器学习、XGBoost算法、极致梯度提升、正则化GBDT、二阶泰勒展开、Python XGBoost、Java XGBoost4J、Kaggle冠军算...

18610

强化学习算法解析:Gradient Boosting Machine(梯度提升机, GBM)算法原理、手动计算与Python/Java双代码实战指南

jack.yang

关键词:机器学习、梯度提升机、GBM算法、GBDT、负梯度拟合、残差学习、Python GBM、Java Weka GradientBoosting、XGBoo...

4210

强化学习算法解析:AdaBoost(自适应提升)算法

jack.yang

关键词:机器学习、AdaBoost算法、自适应提升、弱分类器、指数损失、Boosting、Python AdaBoost、Java Weka AdaBoostM...

7810

机器人研究与云基础设施合作新进展

用户11764306

Chuning Zhu,博士生,华盛顿具身智能与机器人开发实验室成员,师从 Paul G. Allen 计算机科学与工程学院的助理教授 Abhishek Gup...

7810

ChatGPT,从规则到强化学习

江南一点雨

要了解 ChatGPT(Chat Generative Pre-training Transformer),我们不得不先看看 NLP 自然语言处理(Natura...

13610

了解强化学习的基础:马尔可夫决策过程(MDP)

点云PCL博主

在几乎所有强化学习的入门资料中,你都会看到一个看起来很“学术”、也很“吓人”的词:马尔可夫决策过程(Markov Decision Process,MDP)它通...

17720

如何把机器人控制问题转换成 RL 问题

点云PCL博主

在传统机器人控制中,往往遵循这样一条路径:建模机器人动力学(刚体动力学、拉格朗日方程)设计控制器(PID、LQR、MPC、Whole-Body Control)...

12110

面向风场环境的能量最优无人机路径规划强化学习框架

气象学家

https://doi.org/10.1016/j.patcog.2025.112912

16310

Nat. Mach. Intell. | SequenTx: 基于强化学习的肿瘤演化驱动序贯药物治疗设计

DrugOne

肿瘤细胞在癌症进展及治疗过程中会不断发生演化,表现为细胞状态的动态变化与显著的异质性。因此,如何理解这种复杂的细胞动态,并据此设计能够针对肿瘤演化过程的治疗策略...

11210

冰雪奇缘的雪宝,被带到了现实

mixlab

在动画世界里,角色的动作往往不符合物理定律,比例也极其夸张。雪宝就是一个典型的例子:他有一个巨大的脑袋、细长的脖子,以及在身体下方像雪球一样“漂浮”移动的双脚。

10210

AI Can Learn Scientific Taste: 让人工智能拥有科学判断能力

安全风信子

摘要: AI Can Learn Scientific Taste 提出了一种通过社区反馈强化学习(RLCF)来训练 AI 学习科学品味的方法,将科学品味学习形...

9310

4:L的强化学习安全决策:蓝队的智能响应系统

安全风信子

作者: HOS(安全风信子) 日期: 2026-03-17 主要来源平台: ModelScope 摘要: 作为数字世界的守护者,我用强化学习技术构建安全决...

7910
领券