AI Tech Blog |

Posted by 刘晨阳 on Friday, March 6, 2026

AI 如何学得又快又好？

聊聊 Agentic RL 里的“折中与融合”智慧

引言：当 AI 学徒遇上“标准答案” 大家好！今天我们来聊一个 AI 训练里特别有意思的话题：怎么让 AI “学得又快又好”？想象一下，你正在教一个机器人学徒做复杂的数学题。你有两种教学方式：放养式（On-Policy）：让学徒自己从头到尾解题，你只看最终答案对不对，然后告诉它“好”或“不好”。这种方式最锻炼学徒的独立思考能力，但问题是，它可能会犯很多错，学起来特别慢。填鸭式（Off-Policy）：你直接把带有详细步骤的“标准答案”给学徒，让它照着抄。这样学得飞快，几乎不出错。但风险是，学徒可能只会死记硬背，一遇到没见过的题型就傻眼了，因为它没有真正理解解题的思路。在训练大型 AI 模型（也就是我们说的 Agent）时，也面临着类似的困境。如何在“独立探索”和“参考答案”之间找到最佳平衡点，让 AI 既能高效学习，又能具备强大的泛化能力？这就是我们今天要探讨的核心：Off-Policyness、Sample Efficiency 与 Privileged Information。本文核心主线我们将一起探索 Agentic RL（可以理解为训练能执行复杂任务的 AI）领域里一个非常重要的宏观思路：如何在提升学习效率（Sample Efficiency）和保证解题思路的多样性（Solution Space Coverage）之间做出巧妙的“折中与融合”。核心概念小词典在我们深入之前，先用大白话解释几个必须知道的“黑话”。 1. Off-Policyness（偏离度）是什么？简单说，就是 AI 在学习时，参考的数据（比如“标准答案”）与它自己当前水平能产生的数据（比如它自己解题的步骤）有多大的“偏离”。为什么重要？偏离度越高，意味着 AI 接触到的“高级经验”越多，学习速度可能越快。比如，直接学习专家（Teacher Policy）的满分答案，就比自己瞎试要快得多。形象类比：你是一个新手司机（Base Policy），直接让你看 F1 赛车手的行车录像（Teacher Policy）来学习，这个“偏离度”就很高。一句话总结： Off-Policyness 衡量了学习材料与自身能力的差距，差距越大，偏离度越高。 2. Sample Efficiency（样本效率）是什么？指 AI “吃”进多少数据才能学会一项技能。效率越高，意味着用更少的数据就能达到很好的效果。为什么重要？收集高质量的训练数据（比如让 AI 与环境互动上万次）成本极高，耗时耗力。高样本效率意味着省钱、省时、省算力。形象类比：一个学生是“学霸”，看一遍例题就能举一反三，他的样本效率就很高；另一个学生需要反复刷一百道题才能掌握，样本效率就低。一句话总结：样本效率就是 AI 的“学习性价比”，用最少的“学费”（数据）办最大的事。 3. Privileged Information（特权信息）是什么？这是指在训练时提供给 AI，但在真实世界（部署后）它无法获得的“额外信息”或“金手指”。

Posted by 刘晨阳 on Friday, March 6, 2026

FlagGems 代码与架构讲解

为 AI 芯片打造的高性能算子库

第 1 章：初识 FlagGems：为 AI 芯片打造的高性能算子库欢迎来到 FlagGems 的世界。在人工智能（AI）模型日益庞大、计算需求飞速增长的今天，如何高效利用底层硬件算力，成为决定模型训练与推理性能的关键。PyTorch 作为业界领先的深度学习框架，其强大的灵活性和易用性广受好评。然而，当我们将目光投向多样化的 AI 芯片，特别是除了 NVIDIA GPU 之外的新兴硬件时，如何确保顶层框架的算子能够充分挖掘这些芯片的极致性能，便成了一个富有挑战性的课题。 FlagGems 正是为应对这一挑战而生。它是一个专注于 PyTorch 生态的高性能、跨平台算子库，其设计的初衷，是在不改变开发者现有 PyTorch 使用习惯的前提下，为多种 AI 硬件提供深度优化的算子实现，从而“透明地”加速您的 AI 应用。 FlagGems 的核心价值在深入其内部机制之前，我们首先需要理解 FlagGems 为开发者和 AI 系统带来的三大核心价值： 1. 极致性能与跨平台兼容 FlagGems 的核心是利用 OpenAI Triton 语言编写的高度优化的计算内核（Kernel）。Triton 是一种基于 Python 的编程语言，能够让我们编写出接近硬件性能极限的 GPU 代码，同时保持了 Python 的开发效率。与传统的 CUDA C++ 编程相比，Triton 允许我们用更少的代码量实现复杂的并行计算逻辑，并且其内置的编译器能够自动进行底层优化，如指令调度、内存访问优化等，极大地简化了性能调优的过程。更重要的是，FlagGems 并未将自己局限于单一硬件。通过精心设计的后端抽象层，它能够支持包括 NVIDIA 和国产昇腾（Ascend）在内的多种 AI 芯片。这意味着，您的同一套 PyTorch 代码，无需任何修改，就能在不同的硬件平台上享受到 FlagGems 带来的性能提升。下面是一个简单的代码片段，展示了启用 FlagGems 是多么轻松： import torch import flag_gems # 全局启用 FlagGems，自动替换 PyTorch 的底层算子 flag_gems.

Posted by 刘晨阳 on Friday, March 6, 2026

What Is Skills?

软件工程模块化思想在 AI 时代的延续与进化

Posted by 刘晨阳 on Friday, March 6, 2026

Clean White Theme for Hugo

How to set up this theme

Clean White Theme for Hugo CleanWhite is a clean, elegant, but fully functional blog theme for Hugo. Here is a live demo site using this theme. It is based on huxblog Jekyll Theme and Clean Blog Jekyll Theme. These two upstream projects have done awesome jobs to create a blog theme, what I’m doing here is porting it to Hugo, of which I like the simplicity and the much faster compiling speed.

Posted by 赵化冰 on Wednesday, January 9, 2019

前沿追踪实时追踪前沿论文呢

Posted by AI Tech Blog on Monday, January 1, 0001

基础牢固主要写一些关于基础理解的博客

Posted by AI Tech Blog on Monday, January 1, 0001

工具此处为常用工具及相关技术博客

Posted by AI Tech Blog on Monday, January 1, 0001

经典品学主要写一些关于经典论文理解的博客

Posted by AI Tech Blog on Monday, January 1, 0001

面试常考关于面试常考到的问题

Posted by AI Tech Blog on Monday, January 1, 0001

AI Tech Blog

AgentEvolver 阅读启示

探索 AI Agent 的进化与演变路径

AI 如何学得又快又好？

聊聊 Agentic RL 里的“折中与融合”智慧

FlagGems 代码与架构讲解

为 AI 芯片打造的高性能算子库

What Is Skills?

软件工程模块化思想在 AI 时代的延续与进化

Clean White Theme for Hugo

How to set up this theme