AI Tech Blog

AgentEvolver 阅读启示

探索 AI Agent 的进化与演变路径

AgentEvolver阅读启示

AI 如何学得又快又好?

聊聊 Agentic RL 里的“折中与融合”智慧

引言:当 AI 学徒遇上“标准答案” 大家好!今天我们来聊一个 AI 训练里特别有意思的话题:怎么让 AI “学得又快又好”? 想象一下,你正在教一个机器人学徒做复杂的数学题。你有两种教学方式: 放养式(On-Policy):让学徒自己从头到尾解题,你只看最终答案对不对,然后告诉它“好”或“不好”。这种方式最锻炼学徒的独立思考能力,但问题是,它可能会犯很多错,学起来特别慢。 填鸭式(Off-Policy):你直接把带有详细步骤的“标准答案”给学徒,让它照着抄。这样学得飞快,几乎不出错。但风险是,学徒可能只会死记硬背,一遇到没见过的题型就傻眼了,因为它没有真正理解解题的思路。 在训练大型 AI 模型(也就是我们说的 Agent)时,也面临着类似的困境。如何在“独立探索”和“参考答案”之间找到最佳平衡点,让 AI 既能高效学习,又能具备强大的泛化能力?这就是我们今天要探讨的核心:Off-Policyness、Sample Efficiency 与 Privileged Information。 本文核心主线 我们将一起探索 Agentic RL(可以理解为训练能执行复杂任务的 AI)领域里一个非常重要的宏观思路:如何在提升学习效率(Sample Efficiency)和保证解题思路的多样性(Solution Space Coverage)之间做出巧妙的“折中与融合”。 核心概念小词典 在我们深入之前,先用大白话解释几个必须知道的“黑话”。 1. Off-Policyness(偏离度) 是什么? 简单说,就是 AI 在学习时,参考的数据(比如“标准答案”)与它自己当前水平能产生的数据(比如它自己解题的步骤)有多大的“偏离”。 为什么重要? 偏离度越高,意味着 AI 接触到的“高级经验”越多,学习速度可能越快。比如,直接学习专家(Teacher Policy)的满分答案,就比自己瞎试要快得多。 形象类比: 你是一个新手司机(Base Policy),直接让你看 F1 赛车手的行车录像(Teacher Policy)来学习,这个“偏离度”就很高。 一句话总结: Off-Policyness 衡量了学习材料与自身能力的差距,差距越大,偏离度越高。 2. Sample Efficiency(样本效率) 是什么? 指 AI “吃”进多少数据才能学会一项技能。效率越高,意味着用更少的数据就能达到很好的效果。 为什么重要? 收集高质量的训练数据(比如让 AI 与环境互动上万次)成本极高,耗时耗力。高样本效率意味着省钱、省时、省算力。 形象类比: 一个学生是“学霸”,看一遍例题就能举一反三,他的样本效率就很高;另一个学生需要反复刷一百道题才能掌握,样本效率就低。 一句话总结: 样本效率就是 AI 的“学习性价比”,用最少的“学费”(数据)办最大的事。 3. Privileged Information(特权信息) 是什么? 这是指在训练时提供给 AI,但在真实世界(部署后)它无法获得的“额外信息”或“金手指”。

FlagGems 代码与架构讲解

为 AI 芯片打造的高性能算子库

第 1 章:初识 FlagGems:为 AI 芯片打造的高性能算子库 欢迎来到 FlagGems 的世界。在人工智能(AI)模型日益庞大、计算需求飞速增长的今天,如何高效利用底层硬件算力,成为决定模型训练与推理性能的关键。PyTorch 作为业界领先的深度学习框架,其强大的灵活性和易用性广受好评。然而,当我们将目光投向多样化的 AI 芯片,特别是除了 NVIDIA GPU 之外的新兴硬件时,如何确保顶层框架的算子能够充分挖掘这些芯片的极致性能,便成了一个富有挑战性的课题。 FlagGems 正是为应对这一挑战而生。它是一个专注于 PyTorch 生态的高性能、跨平台算子库,其设计的初衷,是在不改变开发者现有 PyTorch 使用习惯的前提下,为多种 AI 硬件提供深度优化的算子实现,从而“透明地”加速您的 AI 应用。 FlagGems 的核心价值 在深入其内部机制之前,我们首先需要理解 FlagGems 为开发者和 AI 系统带来的三大核心价值: 1. 极致性能与跨平台兼容 FlagGems 的核心是利用 OpenAI Triton 语言编写的高度优化的计算内核(Kernel)。Triton 是一种基于 Python 的编程语言,能够让我们编写出接近硬件性能极限的 GPU 代码,同时保持了 Python 的开发效率。 与传统的 CUDA C++ 编程相比,Triton 允许我们用更少的代码量实现复杂的并行计算逻辑,并且其内置的编译器能够自动进行底层优化,如指令调度、内存访问优化等,极大地简化了性能调优的过程。 更重要的是,FlagGems 并未将自己局限于单一硬件。通过精心设计的后端抽象层,它能够支持包括 NVIDIA 和国产昇腾(Ascend)在内的多种 AI 芯片。这意味着,您的同一套 PyTorch 代码,无需任何修改,就能在不同的硬件平台上享受到 FlagGems 带来的性能提升。 下面是一个简单的代码片段,展示了启用 FlagGems 是多么轻松: import torch import flag_gems # 全局启用 FlagGems,自动替换 PyTorch 的底层算子 flag_gems.

What Is Skills?

软件工程模块化思想在 AI 时代的延续与进化

What Is Skills? 从热潮到反思 2025 年底,Anthropic 提出了 Skills 这个新概念,AI 应用领域随即掀起了新一波开发浪潮。各家厂商纷纷宣传自己支持 Skills 的能力,开发者们也在积极尝试。 然而,在无脑跟风实践了一段时间后,我开始向自己提问:Skills 到底是什么?如果让我来定义 Skills,我会如何定义它? Skills 的本质 核心问题:Token 效率 要理解 Skills,首先要理解它解决的核心问题——如何用最少的 Token 办最多的事。 在传统的 Prompt 工程中,我们往往需要在每次对话中携带大量的上下文信息、指令和示例。这不仅消耗大量 Token,还会导致: 响应速度下降 成本增加 上下文窗口被快速占满 解决方案:动态提示词构建 Skills 的本质是按照能力范围拆解提示词进行打包,对不同的 Skills 互相保留指针,然后实时按需导入,实现动态提示词构建。 这种按需导入的方式,让 Skills 成为一个可组合的模块,方便在不同的场景下灵活使用。 ┌─────────────┐ │ 用户请求 │ └──────┬──────┘ ▼ ┌─────────────┐ │ 意图识别 │ └──────┬──────┘ ▼ ┌─────────────────────────────┐ │ Skills 索引表 │ │ ┌───┐ ┌───┐ ┌───┐ ┌───┐ │ │ │ A │ │ B │ │ C │ │ D │ │ │ └───┘ └───┘ └───┘ └───┘ │ └─────────────────────────────┘ ▼ (按需加载 A, C) ┌─────────────────────────────┐ │ 动态构建的 Prompt │ │ [基础指令] + [Skill A] + │ │ [Skill C] + [用户输入] │ └─────────────────────────────┘ ▼ ┌─────────────┐ │ LLM 执行 │ └─────────────┘ 绘制指导: - 类型:流程图 - 工具推荐:draw.

Clean White Theme for Hugo

How to set up this theme

Clean White Theme for Hugo CleanWhite is a clean, elegant, but fully functional blog theme for Hugo. Here is a live demo site using this theme. It is based on huxblog Jekyll Theme and Clean Blog Jekyll Theme. These two upstream projects have done awesome jobs to create a blog theme, what I’m doing here is porting it to Hugo, of which I like the simplicity and the much faster compiling speed.

前沿追踪 实时追踪前沿论文呢

基础牢固 主要写一些关于基础理解的博客

工具 此处为常用工具及相关技术博客

经典品学 主要写一些关于经典论文理解的博客

面试常考 关于面试常考到的问题