Reinforcement Learning

小米“天才少女”罗福莉发表新论文，直指AI Agent痛点

3月16日消息，小米AI实验室研究员罗福莉，也就是很多人口中的“天才少女”，又发论文了。论文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement ...

腾讯网

刚刚！小米“天才少女”罗福莉发表新论文，直指AI Agent痛点

3月16日消息，小米AI实验室研究员罗福莉，也就是很多人口中的“天才少女”，又发论文了。论文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning。作者之一，就是罗福莉。如果只看标题，这篇论文似乎只是一个偏工程的研究：如何让AI ...

腾讯网

博弈智能中的诡变、欺诈强化学习与一般的强化学习有何不同

博弈智能中的诡变（Deception）和欺诈强化学习（Fraudulent Reinforcement Learning）与一般的强化学习（Reinforcement Learning, RL）有一些关键区别，主要体现在博弈环境中需要考虑对手的策略、博弈中的不完全信息、以及策略背后的意图等因素。下面是一些核心差异 ...

来自MSN

阿里Qwen提出强化学习新算法GSPO

据通义千问Qwen，为了能够持续拓展强化学习（Reinforcement Learning，RL），提出了Group Sequence Policy Optimization (GSPO) 算法。不同于过去的RL算法，GSPO定义了序列级别的重要性比率，并在序列层面执行裁剪、奖励和优化。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果