强化学习 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

RouteRAG：用特殊 Token 和强化学习构建可学习的 RAG 检索策略

deephub 1天前2026-03-31 19:57:10

它不依赖固定的手工检索流水线或静态指令，而是学到一套策略：推理过程中的特殊 Token 可以触发检索动作。每一步，模型生成一个动作 Token——继续内部推理、...

3310

没产品没收入，投资人又给了 10 亿美金

数据微光 1天前2026-03-31 18:12:16

π*0.6（2025.11）：给 π0 加了强化学习。以前模型只会模仿人类示范，现在能自己练习、自己进步。核心成果：任务完成效率翻倍。

2300

具身智能的 OpenAI，可能已经出现了

数据微光 1天前2026-03-31 18:06:04

博士期间，他听了谢尔盖·莱文（Sergey Levine）关于深度学习的演讲，当场决定换方向。从传统控制转向深度强化学习，相当于推翻自己之前所有的研究积累重新来...

3400

斯坦福引爆AI革命：Claude学会自己搞科研，写代码、跑实验、还能进化！

天意生信云 1天前2026-03-31 15:51:29

当AI不仅能提出想法，还能亲手把想法变成现实，并从失败中学习进化，科研的范式正在被悄然改写。

4910

强化学习算法解析：XGBoost（eXtreme Gradient Boosting）算法原理、Kaggle 冠军首选、全手动计算全解释

jack.yang 1天前2026-03-30 22:28:40

关键词：机器学习、XGBoost算法、极致梯度提升、正则化GBDT、二阶泰勒展开、Python XGBoost、Java XGBoost4J、Kaggle冠军算...

18610

强化学习算法解析：Gradient Boosting Machine（梯度提升机, GBM）算法原理、手动计算与Python/Java双代码实战指南

jack.yang 1天前2026-03-30 22:16:11

关键词：机器学习、梯度提升机、GBM算法、GBDT、负梯度拟合、残差学习、Python GBM、Java Weka GradientBoosting、XGBoo...

4210

强化学习算法解析：AdaBoost（自适应提升）算法

jack.yang 1天前2026-03-30 22:01:59

关键词：机器学习、AdaBoost算法、自适应提升、弱分类器、指数损失、Boosting、Python AdaBoost、Java Weka AdaBoostM...

7810

机器人研究与云基础设施合作新进展

用户11764306 5天前2026-03-27 08:12:21

Chuning Zhu，博士生，华盛顿具身智能与机器人开发实验室成员，师从 Paul G. Allen 计算机科学与工程学院的助理教授 Abhishek Gup...

7810

ChatGPT，从规则到强化学习

江南一点雨 6天前2026-03-26 17:18:00

要了解 ChatGPT（Chat Generative Pre-training Transformer），我们不得不先看看 NLP 自然语言处理（Natura...

13610

了解强化学习的基础：马尔可夫决策过程（MDP）

点云PCL博主 6天前2026-03-26 16:57:29

在几乎所有强化学习的入门资料中，你都会看到一个看起来很“学术”、也很“吓人”的词：马尔可夫决策过程（Markov Decision Process，MDP）它通...

17720

如何把机器人控制问题转换成 RL 问题

点云PCL博主 6天前2026-03-26 16:57:17

在传统机器人控制中，往往遵循这样一条路径：建模机器人动力学（刚体动力学、拉格朗日方程）设计控制器（PID、LQR、MPC、Whole-Body Control）...

12110

面向风场环境的能量最优无人机路径规划强化学习框架

气象学家 6天前2026-03-25 21:45:29

https://doi.org/10.1016/j.patcog.2025.112912

16310

Nat. Mach. Intell. | SequenTx: 基于强化学习的肿瘤演化驱动序贯药物治疗设计

DrugOne 7天前2026-03-25 14:29:50

肿瘤细胞在癌症进展及治疗过程中会不断发生演化，表现为细胞状态的动态变化与显著的异质性。因此，如何理解这种复杂的细胞动态，并据此设计能够针对肿瘤演化过程的治疗策略...

11210

冰雪奇缘的雪宝，被带到了现实

mixlab 7天前2026-03-25 08:45:18

在动画世界里，角色的动作往往不符合物理定律，比例也极其夸张。雪宝就是一个典型的例子：他有一个巨大的脑袋、细长的脖子，以及在身体下方像雪球一样“漂浮”移动的双脚。

10210

AI Can Learn Scientific Taste: 让人工智能拥有科学判断能力

安全风信子 7天前2026-03-25 08:21:35

摘要： AI Can Learn Scientific Taste 提出了一种通过社区反馈强化学习（RLCF）来训练 AI 学习科学品味的方法，将科学品味学习形...

9310

4：L的强化学习安全决策：蓝队的智能响应系统

安全风信子 7天前2026-03-25 08:15:03

作者： HOS(安全风信子) 日期： 2026-03-17 主要来源平台： ModelScope 摘要：作为数字世界的守护者，我用强化学习技术构建安全决...

7910

#强化学习

RouteRAG：用特殊 Token 和强化学习构建可学习的 RAG 检索策略

没产品没收入，投资人又给了 10 亿美金

具身智能的 OpenAI，可能已经出现了

斯坦福引爆AI革命：Claude学会自己搞科研，写代码、跑实验、还能进化！

强化学习算法解析：XGBoost（eXtreme Gradient Boosting）算法原理、Kaggle 冠军首选、全手动计算全解释

强化学习算法解析：Gradient Boosting Machine（梯度提升机, GBM）算法原理、手动计算与Python/Java双代码实战指南

强化学习算法解析：AdaBoost（自适应提升）算法

机器人研究与云基础设施合作新进展

ChatGPT，从规则到强化学习

了解强化学习的基础：马尔可夫决策过程（MDP）

如何把机器人控制问题转换成 RL 问题

面向风场环境的能量最优无人机路径规划强化学习框架

Nat. Mach. Intell. | SequenTx: 基于强化学习的肿瘤演化驱动序贯药物治疗设计

冰雪奇缘的雪宝，被带到了现实

AI Can Learn Scientific Taste: 让人工智能拥有科学判断能力

4：L的强化学习安全决策：蓝队的智能响应系统

热门专栏

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

#强化学习

RouteRAG：用特殊 Token 和强化学习构建可学习的 RAG 检索策略

没产品没收入，投资人又给了 10 亿美金

具身智能的 OpenAI，可能已经出现了

斯坦福引爆AI革命：Claude学会自己搞科研，写代码、跑实验、还能进化！

强化学习算法解析：XGBoost（eXtreme Gradient Boosting） 算法原理、Kaggle 冠军首选、全手动计算全解释

强化学习算法解析：Gradient Boosting Machine（梯度提升机, GBM）算法原理、手动计算与Python/Java双代码实战指南

强化学习算法解析：AdaBoost（自适应提升）算法

机器人研究与云基础设施合作新进展

ChatGPT，从规则到强化学习

了解强化学习的基础：马尔可夫决策过程（MDP）

如何把机器人控制问题转换成 RL 问题

面向风场环境的能量最优无人机路径规划强化学习框架

Nat. Mach. Intell. | SequenTx: 基于强化学习的肿瘤演化驱动序贯药物治疗设计

冰雪奇缘的雪宝，被带到了现实

AI Can Learn Scientific Taste: 让人工智能拥有科学判断能力

4：L的强化学习安全决策：蓝队的智能响应系统

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

强化学习算法解析：XGBoost（eXtreme Gradient Boosting）算法原理、Kaggle 冠军首选、全手动计算全解释