RL Transition Model - 搜索视频

which of the following is a transition model? CalciumNickel... | Filo

which of the following is a transition model? CalciumNickel... | Filo

已浏览 5720 次4 个月之前

大模型微调不 “失忆” 的秘密：RL 为何比 SFT 更懂 “守旧”？MIT新发现：强化学习微调，为何比监督学习更“记”得好？

大模型微调不 “失忆” 的秘密：RL 为何比 SFT 更懂 “守旧”？MIT新发现…

已浏览 990 次1 个月前

bilibili卢菁博士_北大AI博士后

企业级 RL 优化指南：同步 vs 异步管线、模型滞后与算法系统建模

企业级 RL 优化指南：同步 vs 异步管线、模型滞后与算法系统建模

已浏览 6 次2 个月之前

bilibili每日AI创业知识分享

RL Agent LLM，AI决策迎来新突破

RL Agent LLM，AI决策迎来新突破

已浏览 89 次1 个月前

bilibili大模型八戒

RL00-Reinforced Learning (RL) 强化学习系列介绍

RL00-Reinforced Learning (RL) 强化学习系列介绍

已浏览 859 次2 个月之前

bilibili山哥学AI

RL Transformer杀疯了！新架构刷爆SOTA，CTSAC高效涨点狂揽 ICRA 2025！

RL Transformer杀疯了！新架构刷爆SOTA，CTSAC高效涨点狂揽 ICRA …

已浏览 507 次10 个月之前

bilibili深度学习呀

【RLChina论文研讨会】第6期李文哲 Offline RL with Reverse Model-based Imagination

【RLChina论文研讨会】第6期李文哲 Offline RL with Reverse Model-bas…

已浏览 972 次2021年12月30日

bilibiliRLChina强化学习社区

解锁RL革命：OpenRL，PyTorch驱动的开源强化学习终极框架！

已浏览 1151 次4 个月之前

bilibiliswanmsg

重点论文解读：RLM递归语言模型：通过在一个REPL环境中递归调用从 …

已浏览 170 次2 个月之前

YouTubeAi人日记

RL - 大语言模型的进阶之路

已浏览 226 次5 个月之前

bilibili星空行者-2046

#11评估问题Evaluation 【RL强化学习】两种算法解决一条新高速路

已浏览 999 次2022年5月1日

zhihu.com一起学AI

RL Transformer之Decision Transformer

已浏览 5660 次2021年7月14日

zhihu.com鱼子酱

21.实验：RL agent→environment交互接口

已浏览 241 次2023年8月3日

bilibili大勇任卷舒

宏观经济分析——拉姆齐模型与世纪交叠模型（RCKmodel&OLGmodel）

已浏览 1724 次4 个月之前

bilibili朱投山oNv

[Agentic RL] 07 limits of RLVR，base vs. RL, pass@k, ppl …

已浏览 2776 次3 个月之前

bilibili五道口纳什

谷歌大佬新作 RL从入门到前沿

已浏览 264 次5 个月之前

bilibiliAI梨大谱

[Agentic RL] 10 分布的视角理解 LLM 的 SFT 训练和 RL 训练，Forward…

已浏览 5855 次2 个月之前

bilibili五道口纳什

推理模型即学即用的RL方法

已浏览 1464 次10 个月之前

bilibiliNICE学术

Agent RL新框架显著提升LLM多轮决策能力

已浏览 564 次8 个月之前

bilibili我不是AI科研的内鬼啊

强化学习算法工程师的年度总结：RL 训练中的 Rollout、异步与框架设计

已浏览 3485 次2 个月之前

bilibiliyang_xi_111

3.6.2 RL电路的零状态响应和全响应

已浏览 4万次2021年10月14日

bilibili随风_无声

RL 算法大突破！多智能体协作性能飞升

已浏览 218 次10 个月之前

bilibiliAI因斯坦玩转AI

CS885 Lecture 9: Model-based RL

已浏览 9110 次2018年6月5日

YouTubePascal Poupart

RL、Agent与LLM三者强强联合，AI决策实现重大飞跃。

已浏览 202 次3 个月之前

bilibili大模型八戒

[RL insights] 推导和理解 Policy Gradient 算法，PG vs. MLE/SFT， …

已浏览 4058 次8 个月之前

bilibili五道口纳什

Real World Robotics Tutorial6：通过RL提高鲁棒控制器

已浏览 606 次2024年2月24日

bilibili竹言见智

【RG 25 Fall】[Alibaba] 工业级LLM-RL系统是如何炼成的？ROLL架构深 …

已浏览 987 次3 个月之前

bilibiliUSTC-NHPCC

《电磁学》5.11暂态过程之RL电路

已浏览 661 次2024年4月3日

bilibili中山大学物理王伟良

强化学习纲要第七课基于环境模型的RL方法

已浏览 9672 次2020年5月3日

bilibili周博磊

【RLChina 2020】第4讲 Model-based Reinforcement Learning

已浏览 5518 次2020年7月31日

bilibiliRLChina强化学习社区

观看更多视频