Docs/建立正确心智模型1

为什么需要 Agent，而不只是 Chat API

10 min read·185 LOC·0 tools

Agent 不是会聊天的模型，而是能在状态中持续决策和行动的系统。

很多人第一次做 AI 应用时，都会从一个很自然的起点开始：把用户输入丢给模型，然后把模型输出展示出来。

这当然没错。事实上，很多场景根本不需要 Agent，一个简单的 Chat API 就能解决问题。问题在于，当任务开始要求模型去找信息、做判断、执行动作、根据结果修正下一步时，单轮对话就会越来越吃力。

这一章的目标，就是把这条边界讲清楚。我们不会急着写复杂代码，而是先建立一套后面整本教程都会反复用到的心智模型：什么时候只需要一个“会回答”的模型，什么时候你其实需要的是一个“会持续决策和行动”的系统。

从 Chat API 开始#

假设我们要做一个最小 AI 问答页面，代码可能像这样：

TypeScript

const response = await model.generate({
  system: "你是一个 TypeScript 助手",
  prompt: userInput,
});
 
return response.text;

这个模式非常适合下面这类任务：

这些任务的共同点是：模型只需要基于当前输入生成一个输出。它不需要自己查资料，不需要调用工具，也不需要把问题拆成多个步骤。

我们可以把这类系统称为 Chatbot，它的核心职责只有一件事：接收输入 -> 生成回复。

这类系统简单、便宜、延迟低，而且已经能覆盖非常多的真实需求。
所以在继续往下之前，先记住一个重要判断：

不是所有 AI 应用都需要 Agent。能用简单方案解决的问题，就不要先把系统做复杂。

当单轮问答不够时，很多团队会自然走到第二步：加一条固定流程。

例如，我们希望系统完成这样一个任务：

读取一篇文章，提取重点，再输出一页摘要。

这时我们可能会写出如下流程：

这已经不是简单的聊天了，而是一个 Workflow。它比 Chat API 更强，因为它允许我们把任务拆成多步。但它仍然有一个很明显的特点：每一步都是预先写死的。

这类系统适合处理：

例如：

它的优点是稳定、可控、容易调试；缺点也很明显：只要真实情况稍微偏离预期，固定流程就会开始别扭。

来看一个更接近 Agent 的任务：

帮我阅读这个 TypeScript 项目，告诉我怎么启动它；如果 README 不完整，就继续查 package.json 和配置文件。

这个任务麻烦的地方，不在于“模型要写出一段文字”，而在于它必须自己决定：

这时你很难提前写出一条完全固定的流程，因为系统是否继续、往哪走、何时停止，都依赖中间结果。

这就是 Agent 出场的地方。

这套教程里，我们采用一个非常工程化、也非常克制的定义：

Agent 是一个围绕状态运行的系统。它会根据当前目标和已有观察，决定下一步动作，并把动作结果写回状态，再继续决策，直到任务完成或停止。

这个定义里最重要的不是“智能”，而是下面这几个要素：

把它写成最小形态，大概就是下面这个闭环：

TypeScript

while (!done) {
  const nextAction = await decide(state);
  const observation = await act(nextAction);
  state = update(state, observation);
}

请注意，这里最关键的不是模型本身，而是这个循环。

模型只负责一部分工作：根据当前状态判断下一步该做什么。
真正让系统像 Agent 的，是它具备了“行动之后再看结果，并基于结果继续前进”的能力。

我们可以把三者放在一起看：

类型	核心机制	适合的问题	主要局限
Chatbot	单轮输入输出	问答、改写、总结、翻译	不会主动查资料，不会多步行动
Workflow	预先设计好的多步流程	流程稳定、结构明确的任务	遇到分支和例外时不灵活
Agent	根据中间结果持续决策	开放式、多步、路径不确定的任务	更复杂，成本更高，更难调试