【万字长文】从零开始理解LLM智能体：大模型自主工作的核心技术与实战应用！

LLM智能体是以大语言模型为"大脑"的AI系统，通过规划、记忆和工具使用三大核心能力实现自主执行复杂任务。关键技术包括思维链/思维树提升推理能力，提示工程优化交互，自我反思实现迭代改进，以及短期/长期记忆机制增强连续性。应用场景涵盖模拟人类行为、自动上网、深度研究报告生成等。未来挑战包括上下文窗口限制、接口标准化、任务规划能力提升、计算资源优化、安全隐私保护和决策透明度提高。

m0_63171455

435人浏览 · 2025-11-18 09:14:50

m0_63171455 · 2025-11-18 09:14:50 发布

一、简单理解

这篇文档其实就是给大家讲清楚了“LLM智能体”——一种以ChatGPT这类大语言模型为“大脑”的AI系统，到底是什么、怎么工作、能做啥，还有以后要解决哪些问题，全程用大白话总结就是：

1. 核心：LLM智能体是个啥？

简单说就是给大模型（比如GPT、DeepSeek）配了“规划能力”“记忆力”和“工具箱”，让它不用人一步步指挥，自己就能完成复杂任务——比如写报告、逛网页、做数据分析这些。

它和另一种“强化学习智能体”不一样：LLM智能体靠“想清楚步骤+记信息+用工具”做事，追求结果准确；强化学习智能体靠“不断试错+拿奖励”优化，追求长期做得更好。

2. 它的“超能力”是怎么来的？（核心技术）

这些技术本质都是帮AI“想得更清楚、记得更牢、做得更全”：

想清楚：比如“思维链”（让AI一步步推理，不直接跳答案）、“思维树”（一个问题多方向想，选最优解），还有“自我反思”（做完复盘，下次改进）；
会沟通：“提示工程”就是教你怎么跟AI说话（比如直接指令、给几个例子），让它精准懂你的需求；
记得住：像人一样有短期记忆（记当下的任务）和长期记忆（存之前的经验、外部知识），还能通过技术让它记住更多旧信息；
能借力：会用外部工具，比如用计算器算数学题、用搜索引擎查实时信息、用代码解释器做分析，弥补自己的短板。

3. 它现在能做哪些实际事儿？（应用）

已经有很多能用的场景了：

模拟人类：生成式智能体能在沙盒里模拟人的日常行为（比如聊天、约咖啡）；
自动上网：网页漫游者、OpenAI的Operator能自己控制鼠标键盘，逛网页、做网络任务（比如查资料、下载东西）；
写报告：深度研究系统能自己搜多源资料、分析整合，最后生成结构化报告，不用人手动找资料。

4. 以后还要解决哪些麻烦？（未来挑战）

现在的LLM智能体还不完美，比如：

一次能处理的信息有限（比如长文档可能看不完）；
用不同工具时交互方式不一样（不够统一）；
复杂任务可能想不清步骤，遇到意外不会灵活调整；
运行成本高，还可能有安全风险（比如被恶意引导）、决策过程说不清楚。

总结下来，这篇文档就是把LLM智能体的“来龙去脉”讲透了——从基础概念到做事的核心技术，再到实际能用的场景和未来要改进的地方，相当于一份全面的“AI自主做事指南”。

二、原文部分

智能体

自 2022 年 10 月 OpenAI 发布 ChatGPT，且 AutoGPT、AgentGPT 等项目相继出现后，与大型语言模型（LLM）相关的智能体近年来逐渐成为人工智能领域的研究热点和实际应用方向。本文将介绍智能体的基本概念、核心技术及近期应用进展。

大型语言模型智能体（LLM 智能体）

大型语言模型智能体（LLM 智能体）以大型语言模型作为系统的 “大脑”，结合规划、记忆和外部工具模块，实现复杂任务的自动化执行。

用户请求

用户通过提示词输入任务，与智能体进行交互。
智能体

由一个或多个大型语言模型构成的系统 “大脑”，负责整体协调与任务执行。
规划

将复杂任务分解为更小的子任务并制定执行计划，通过反思持续优化结果。
记忆

包含短期记忆（利用上下文学习实时捕获任务信息）和长期记忆（通过外部向量存储保存并检索关键信息，确保长期任务的信息连续性）。
工具

集成计算器、网络搜索、代码解释器等外部工具，用于调用外部数据、执行代码和获取最新信息。

对比

下表展示了二者的差异：

对比维度	LLM 智能体	强化学习智能体（RL Agent）
核心原理	通过规划、记忆和工具实现复杂任务的自动化执行。	通过与环境的试错反馈循环，持续优化策略以最大化长期奖励。
优化方式	不直接更新模型参数，主要通过上下文扩展、外部记忆和工具提升性能。	持续且频繁地更新策略模型参数，依赖环境的奖励信号进行优化。
交互方式	以自然语言与用户或外部系统交互，灵活调用各类工具获取外部信息。	与真实或模拟环境交互，环境提供奖励或惩罚，形成闭环反馈。
目标	分解复杂任务并借助外部资源完成，聚焦任务结果的质量与准确性。	最大化长期奖励，寻求短期与长期回报的最优平衡。

随着研究深入，大型语言模型（LLM）与强化学习智能体的结合呈现更多可能性，例如：

采用强化学习方法训练推理型大型语言模型（如 o1/o3），使其更适配作为 LLM 智能体的基础模型。
同时，记录 LLM 智能体执行任务的过程数据与反馈，为推理型大型语言模型提供丰富训练数据，进而提升模型性能。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

规划：任务分解

LLM 智能体的核心组件包括规划、记忆和工具使用，这些组件协同作用，使智能体能够自主执行复杂任务。

规划的重要性

规划对于复杂任务的成功执行至关重要。根据任务复杂度和迭代优化需求，可采用不同的规划方式。在简单场景中，规划模块可借助大型语言模型（LLM）提前制定详细计划，涵盖所有必要子任务。这一步骤能确保智能体从一开始就系统地进行任务分解，遵循清晰的逻辑流程。

思维链（Chain of Thought）

思维链（Chain of Thought，简称CoT）（Wei等人，2022）通过逐步生成一系列短句（即推理步骤）来描述推理过程。其核心目的是明确呈现模型的推理路径，帮助模型更好地处理复杂推理任务。下图展示了少样本提示（左）与思维链提示（右）的差异：少样本提示会得出错误答案，而CoT方法能引导模型逐步陈述推理过程，更清晰地反映模型的逻辑脉络，进而提升答案的准确性与可解释性。

零样本思维链（Zero-Shot CoT，Kojima等人，2022）是思维链（CoT）的后续研究，提出了一种极其简单的零样本提示方法。他们发现，只需在问题末尾简单添加“让我们逐步思考”这一短语，大型语言模型（LLM）就能生成思维链，进而得到更准确的答案。

多模态思维链（Multimodal Chain-of-Thought，简称MCoT）（Zhang等人，2023）将文本和视觉信息融入推理过程，打破了传统思维链（CoT）仅依赖语言模态的局限。其框架分为两个阶段：

推理链生成

基于多模态信息（文本+图像），生成具有解释性的推理链。
答案推断

以生成的推理链为辅助，推断出最终答案。

自洽性采样（Self-Consistency Sampling）

自洽性采样（Wang等人，2022a）是一种在温度参数大于0的设置下，对同一提示词采样多个不同答案后筛选最优结果的方法。其核心思想是通过采样多条推理路径并采用多数投票法，提升最终答案的准确性与鲁棒性。最优答案的筛选标准可随任务不同而调整，但多数投票法通常作为通用方案。对于编程问题等易验证的任务，可通过解释器运行答案并结合单元测试进行验证。该方法是思维链（CoT）的优化方案，二者结合使用时，能显著提升模型在复杂推理任务中的性能。

（Wang 等人，2022b）随后采用另一种集成学习方法进行优化：通过改变示例顺序，或用模型生成的推理内容替代人工撰写的推理内容来增加随机性，之后再采用多数投票法筛选结果。

自教式推理器（STaR）

若训练样本仅提供正确答案而无推理过程，可采用自教式推理器（Self-Taught Reasoner，简称STaR）方法（Zelikman等人，2022）：

让大型语言模型（LLM）生成推理链，仅保留正确答案对应的推理内容。
用生成的推理内容微调模型，迭代直至收敛。

需注意，高温参数易导致答案正确但推理过程错误的结果。若不存在真实标签答案，可将多数投票结果视为“正确答案”。

（Fu等人，2023）发现，更复杂的示例（包含更多推理步骤）能提升模型性能。拆分推理步骤时，换行符\n比“步骤i”“.”或“；”效果更优。此外，采用基于复杂度的一致性策略——仅对生成的前 $k$ 条最复杂推理链进行多数投票——可进一步优化模型输出。研究还表明，在提示词中将“Q:”替换为“Question:”，能为模型性能带来额外提升。

思维树（Tree of Thoughts，简称ToT）

思维树（Yao等人，2023）在思维链（CoT）的基础上进行扩展，每一步都会探索多种推理可能性。它首先将问题分解为多个思考步骤，且每个步骤生成若干不同思路，形成树状结构。搜索过程可采用广度优先搜索（BFS）或深度优先搜索（DFS），每个状态通过分类器（或调用大型语言模型评分）或多数投票法进行评估。其核心包含三个步骤：

扩展

生成一个或多个候选解决方案。
评分

衡量候选解决方案的质量。
剪枝

保留排名前 $k$ 的最优候选解决方案。

若未找到有效解决方案（或候选方案质量未达要求），则回溯至扩展步骤重新执行。

提示工程（Prompt Engineering）

提示工程又称“上下文内提示（In-Context Prompting）”，是通过优化输入提示词，引导大型语言模型（LLM）生成期望输出的技术。其核心目标是通过有效沟通控制模型行为，无需更新模型权重。

零样本提示（Zero-Shot Prompting）

零样本提示无需提供任何示例，直接向模型下达任务指令。该方法完全依赖模型在预训练阶段习得的知识与指令遵循能力。例如情感分析任务：

经过指令微调的模型（如GPT-5、Claude 4），能够很好地理解并执行这类直接指令。

少样本提示（Few-Shot Prompting）

少样本提示在提示词中嵌入一组高质量示例，每个示例包含输入与期望输出。通过这些示例，模型能更清晰地理解用户意图与任务具体要求，因此性能通常优于零样本提示。但该方法的缺点是会占用更多上下文窗口。例如情感分析的少样本示例：

自动提示构建（Automatic Prompt Construction）

自动提示工程师（Automatic Prompt Engineer，简称APE）（Zhou等人，2022）是一种在模型生成的候选指令池中进行搜索的方法。它会筛选候选集，并基于选定的评分函数，最终挑选出得分最高的候选指令。

自动思维链（Automatic Chain-of-Thought，简称Auto-CoT）（Zhang等人，2022）提出了一种自动化构建思维链示例的方法，旨在解决人工设计提示词耗时且可能并非最优的问题。其核心思想是通过聚类技术采样问题，再利用大型语言模型自身的零样本推理能力自动生成推理链，进而构建多样化、高质量的示例。

自动思维链（Auto-CoT）包含两个核心阶段：

问题聚类

对数据集中的问题进行嵌入处理，再运行k-均值（ $k$ -means）等聚类算法。该步骤旨在将相似问题归为一类，确保后续采样问题的多样性。
示例选择与推理链生成

从每个聚类中选取一个或多个代表性问题（如距离聚类中心最近的问题）。随后通过零样本思维链（Zero-Shot CoT）提示词，让大型语言模型为这些选定问题生成推理链。这些自动生成的“问题-推理链”对，将构成最终用于执行任务的少样本提示词。

知识增强型提示（Knowledge-Augmented Prompting）

处理知识密集型或常识推理任务时，仅依赖大型语言模型（LLM）的参数化知识往往不够，还可能导致答案错误或过时。为解决这一问题，研究者提出两类方法：

生成式知识提示（Generated Knowledge Prompting）（Liu等人，2022）

让模型在进行预测前先生成相关知识的方法。核心思想是，当任务需要常识或外部信息时，模型可能因缺乏上下文而出错；若先引导模型生成与输入相关的知识，再基于这些知识作答，可提升推理准确性。

图16 生成式知识提示方法概述（图片来源：Liu等人，2022）

其核心步骤包括：

知识生成

模型基于输入内容，先生成相关事实性知识。
知识整合

将生成的知识与原始问题结合，形成新的提示词输入。
答案推断

模型基于增强后的输入生成答案。

检索增强生成（Retrieval Augmented Generation，简称RAG）（Lewis等人，2021）

结合信息检索与文本生成的知识密集型任务解决方案。核心思想是，仅依赖大型语言模型的静态参数化知识易产生事实错误，引入外部知识库检索可提升生成结果的事实一致性与时效性。

其核心步骤包括：

检索

从外部知识源（如维基百科、私有知识库）中检索相关文档。
增强

将检索到的文档与原始输入拼接，作为提示词上下文。
生成

生成模型（原文采用预训练序列到序列模型，如今大型语言模型已成为主流）基于增强后的提示词输出答案。

主动提示（Active Prompt）（Diao等人，2023）

针对传统思维链（CoT）方法依赖固定人工标注示例的局限性进行改进。固定示例未必适用于所有任务，可能导致泛化能力不佳。主动提示引入主动学习策略，自适应选择并更新与任务最相关的最优示例，进而提升模型推理性能。

其核心步骤包括：

不确定性估计

无论是否有少量人工思维链示例，大型语言模型都会为训练问题生成k个答案（论文中k=5），并基于这些答案的方差计算不确定性指标。
筛选

根据不确定性程度，挑选出最具不确定性的问题。
人工标注

对筛选出的问题进行人工标注，补充新的高质量思维链示例。
推理

利用新标注的示例进行推理，提升模型在目标任务上的性能。

三、规划：自我反思（Self-Reflexion）

自我反思是智能体通过优化过往行动决策、修正先前错误实现迭代改进的关键因素。在不可避免需要试错的现实任务中，它发挥着至关重要的作用。

ReAct框架（Reason + Act）（Yao等人，2023）

通过将任务特定的离散动作与语言空间相结合，实现大型语言模型中推理与行动的无缝融合。该设计既允许模型通过调用维基百科搜索API等外部接口与环境交互，又能以自然语言生成详细推理轨迹，解决复杂问题。

ReAct提示词模板包含明确的思考步骤，基本格式如下：

思考（Thought）：……
行动（Action）：……
观察（Observation）：……
……（多次重复）

图19 知识密集型任务（如HotpotQA、FEVER）与决策类任务（如AlfWorld Env、WebShop）的推理轨迹示例（图片来源：Yao等人，2023）

如下图所示，ReAct在知识密集型和决策类任务中的性能均显著优于仅依赖“行动”的基线方法，体现出其在提升推理有效性与交互性能上的优势。

图20 PaLM-540B模型在HotpotQA和Fever数据集上的提示词实验结果（图片来源：Yao等人，2023）

Reflexion框架（Shinn等人，2023）

让大型语言模型通过自我反馈与动态记忆，实现决策的迭代优化。

该方法本质借鉴了强化学习的思路。传统演员-评论家（Actor-Critic）模型中，演员（Actor）基于当前状态 $s\_t$ 选择动作 $a\_t$ ，评论家（Critic）提供评估（如价值函数 $V(s\_t)$ 或动作价值函数 $Q(s\_t, a\_t)$ ）并给予反馈，供演员优化策略。相应地，Reflexion的三大核心组件如下：

演员（Actor）

由大型语言模型扮演，基于环境状态（含上下文与历史信息）输出文本及对应动作。可表示为：

评估器（Evaluator）

类似评论家，接收演员生成的轨迹并输出奖励信号 $r\_t$ 。在Reflexion框架中，评估器可通过预先设计的启发式规则或额外的大型语言模型分析轨迹，生成奖励。例如：其中R(cdot)是基于当前轨迹tau_t的奖励函数。

自我反思（Self-Reflection）

在演员-评论家模型基础上增加自我调节反馈机制。整合当前轨迹tau、奖励信号r_t及长期记忆中的历史经验，利用语言生成能力为下一次决策提供自我改进建议。该反馈会写入外部记忆，为演员后续决策提供更丰富的上下文，从而通过动态调整提示词实现类似更新策略参数theta的迭代优化，无需更新大型语言模型的内部参数。

以下是Reflexion在决策、编程和推理任务中的应用示例：

在包含100个HotPotQA问题的实验中，思维链（CoT）方法与带情景记忆的方法对比显示，Reflexion方法在末尾添加自我反思步骤后，显著提升了搜索、信息检索与推理能力。

DeepSeek R1

DeepSeek-R1（深度求索人工智能，2025）是开源社区复刻 OpenAI o1 模型（OpenAI，2024）的重大突破，通过强化学习技术成功训练出具备深度反思能力的先进推理模型。

关于 DeepSeek R1 的详细训练流程与技术实现，可参考本人此前的博客文章：《复刻 OpenAI o1 的进展：DeepSeek-R1》。

DeepSeek-R1-Zero 的训练过程中出现了一个关键转变：随着训练推进，模型逐渐涌现出显著的自我进化能力。该能力体现在三大核心方面：

自我反思：能够回顾并批判性评估先前的推理步骤。
主动探索：发现当前解题路径欠佳时，可自主寻找并尝试替代方案。
动态思维调整：根据问题复杂度自适应调整生成的 tokens 数量，实现更深入的思考过程。

这种动态且自发的推理行为，大幅提升了模型解决复杂问题的能力，使其能更高效、准确地应对高难度任务。

图 24 强化学习（RL）过程中，DeepSeek-R1-Zero 在训练集上的平均响应长度（图片来源：深度求索人工智能，2025）

DeepSeek-R1-Zero 的训练过程中还出现了典型的 “顿悟时刻”（aha moment）。在这一关键阶段，模型突然意识到先前的思路存在缺陷，迅速调整思考方向，最终成功得出正确答案。这一现象有力证明，模型在推理过程中已具备强大的自我修正与反思能力，类似人类思维中的 “顿悟” 体验。

四、记忆（Memory）

人类记忆（Human Memory）

记忆是获取、存储、保留和检索信息的过程。人类记忆主要分为以下三类：

图 26 人类记忆的分类（图片来源：Weng，2017）

感觉记忆（Sensory Memory）

用于在原始刺激（视觉、听觉、触觉等）消失后短暂保留感官信息，持续时间通常为毫秒至数秒。感觉记忆进一步分为：

图像记忆（Iconic Memory）：视觉通道保留的瞬时影像或视觉印象，一般持续 0.25–0.5 秒，用于形成视频或动画场景中的视觉连续性。
回声记忆（Echoic Memory）：听觉信息的短暂存储，可持续数秒，使人能回放近期听到的句子或声音片段。
触觉记忆（Haptic Memory）：用于保留短暂的触觉或力感信息，持续时间通常为毫秒至数秒，例如打字或阅读盲文时手指的短暂触感。

短时记忆（Short-Term Memory）

存储当前意识层面的信息。

持续时间约 20–30 秒，容量通常为 7±2 个项目。
负责学习、推理等复杂认知任务中信息的临时处理与维持。

长时记忆（Long-Term Memory）

可存储信息数天至数十年，容量几乎无限。长时记忆分为：

外显记忆（Explicit Memory）：可有意识地回忆，包括情景记忆（个人经历、事件细节）和语义记忆（事实与概念）。
内隐记忆（Implicit Memory）：无意识记忆，主要与技能和习惯相关，例如骑自行车或盲打。

这三类人类记忆相互交织，共同构成我们对世界的认知与理解。构建 LLM 智能体时，可借鉴这种记忆分类思路：

感觉记忆对应大型语言模型（LLM）对原始输入数据（如文本、图像、视频）的嵌入表示。
短时记忆对应大型语言模型的上下文学习，受模型上下文窗口 max_tokens 限制，对话长度超过窗口时会截断早期信息。
长时记忆对应外部向量存储或数据库，智能体可通过检索增强生成（RAG）技术按需调取历史信息。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

LLM 智能体记忆（LLM Agent Memory）

当智能体与用户进行多轮交互或执行多步骤任务时，可利用不同形式的记忆与环境信息完成工作流程。

图 27 基于大型语言模型（LLM）的智能体记忆：来源、形式与操作概述（图片来源：Zhang 等人，2024）

文本记忆（Textual Memory）

完整交互记录（Full Interaction）：记录所有对话与动作轨迹，帮助智能体追溯上下文。
近期交互记录（Recent Interaction）：仅保留与当前任务高度相关的对话内容，减少不必要的上下文占用。
检索到的交互记录（Retrieved Interaction）：智能体可从外部知识库中检索与当前任务相关的历史对话或记录，并整合到当前上下文。
外部知识（External Knowledge）：遇到知识缺口时，可通过 API 或外部存储检索获取补充信息。

参数记忆（Parametric Memory）

微调（Fine-tuning）：向大型语言模型注入新信息或知识，扩展模型内部知识储备。
知识编辑（Knowledge Editing）：在模型层面修改或更新已有知识，实现模型内部参数记忆的动态调整。

环境（Environment）代表智能体与用户及外部系统交互时涉及的实体与上下文，例如用户 Alice、可访问的工具或接口（如订票系统、流媒体平台）。
智能体（Agent）负责读写操作，即从外部环境或知识库读取信息，写入新的动作或内容。包含一系列管理功能，如合并、反思、遗忘，用于动态维护短时记忆与长时记忆。

另一个示例是智能体完成两项不同但相关的任务，需同时运用短时记忆与长时记忆：

任务 A：播放视频：智能体将当前计划、动作及环境状态（如搜索、点击、播放视频）记录在短时记忆中，该信息存储于记忆模块与大型语言模型的上下文窗口。
任务 B：下载游戏：智能体利用关于《英雄联盟：双城之战》（Arcane）与《英雄联盟》（League of Legends）的长时记忆知识，快速找到游戏下载方式。图中显示智能体通过谷歌搜索，可将谷歌知识库视为外部知识源。所有新的搜索、点击、下载动作也会更新至短时记忆。

图 28 基于大型语言模型（LLM）的图形界面（GUI）智能体中短时记忆与长时记忆的示意图（图片来源：Zhang 等人，2024）

常见记忆元素及其对应存储方式可总结如下表：

记忆元素（Memory Element）	记忆类型（Memory Type）	描述（Description）	存储介质 / 方式（Storage Medium / Method）
动作（Actions）	短时记忆	历史动作轨迹（如点击按钮、输入文本）	记忆模块、大型语言模型上下文窗口
计划（Plan）	短时记忆	上一步或当前步骤生成的下一步操作计划	记忆模块、大型语言模型上下文窗口
执行结果（Execution Result）	短时记忆	动作执行后的返回结果、错误信息及环境反馈	记忆模块、大型语言模型上下文窗口
环境状态（Environment State）	短时记忆	当前用户界面（UI）环境中的可用按钮、页面标题、系统状态等	记忆模块、大型语言模型上下文窗口
自身经验（Self-Experience）	长时记忆	历史任务轨迹与执行步骤	数据库、磁盘
自我指导（Self-Guidance）	长时记忆	从历史成功轨迹中总结的指导规则与最佳实践	数据库、磁盘
外部知识（External Knowledge）	长时记忆	辅助完成任务的外部知识库、文档或其他数据源	外部数据库、向量检索
任务成功指标（Task Success Metrics）	长时记忆	任务成功率、失败率等记录，用于改进与分析	数据库、磁盘

此外，研究者还提出了新的训练与存储方法以增强大型语言模型的记忆能力：

长时记忆增强语言模型（LongMem，Language Models Augmented with Long-Term Memory）（Wang 等人，2023）：让大型语言模型能够记住长时历史信息。它采用解耦网络结构，冻结原始大型语言模型参数作为记忆编码器，同时使用自适应残差侧网络（Adaptive Residual Side-Network，SideNet）作为记忆检索器，负责记忆检查与读取。

LongMem的结构与工作流

它主要由三部分构成：冻结大型语言模型（Frozen LLM）、残差侧网络（Residual SideNet）和缓存记忆库（Cached Memory Bank）。其工作流程如下：

首先将长文本序列分割为固定长度的片段，每个片段在冻结大型语言模型中逐层编码，并在第m层提取注意力机制向量对，缓存至缓存记忆库中。
面对新的输入序列时，模型基于当前输入的查询-键（query-key），从长时记忆库中检索出相关性最高的前k个键-值对，将其整合到后续的语言生成过程中。同时，记忆库会移除最古老的内容，确保最新上下文信息的可用性。
推理阶段，残差侧网络将冻结大型语言模型的隐藏层输出与检索到的历史键-值对融合，有效建模并利用超长文本的上下文信息。

通过这种解耦设计，LongMem无需扩展原生上下文窗口，就能灵活调度海量历史信息，实现速度与长时记忆能力的平衡。

工具使用（Tool Use）

工具使用是LLM智能体的重要组成部分。通过赋予大型语言模型调用外部工具的能力，其功能得到显著扩展：不仅能生成自然语言，还能获取实时信息、执行复杂计算、与各类系统（如数据库、API等）交互，有效突破预训练知识的局限，避免重复造轮子的低效过程。

传统大型语言模型主要依赖预训练数据进行文本生成，在数学运算、数据检索、实时信息更新等方面存在不足。通过工具调用，模型可实现：

增强计算能力：例如调用Wolfram等专业计算器工具，完成更精准的数学运算，弥补自身算术短板。
获取实时信息：借助谷歌、必应等搜索引擎或数据库API，获取最新信息，确保生成内容的时效性与准确性。
提升信息可信度：在外部工具支持下，可引用真实数据源，降低信息编造风险，增强整体可信度。
提高系统透明度：追踪API调用记录能帮助用户理解模型的决策过程，提供一定的可解释性。

目前已涌现出各类基于工具调用的LLM应用，它们采用不同策略与架构，覆盖从简单任务到复杂多步推理的各类场景。

Toolformer（Schick等人，2023）

一种可通过简单API使用外部工具的大型语言模型。它基于GPT-J模型微调训练，每个API仅需少量示例即可完成学习。Toolformer学会调用的工具包括问答系统、维基百科搜索、计算器、日历和翻译系统：

HuggingGPT（Shen等人，2023）

以ChatGPT作为任务规划器的框架。它通过读取HuggingFace平台上的模型描述，选择可用模型完成用户任务，并根据执行结果生成总结。

图31 HuggingGPT工作原理示意图（图片来源：Shen等人，2023）

该系统包含以下四个阶段：

任务规划（Task Planning）：将用户请求解析为多个子任务，每个任务包含四个属性——任务类型、ID、依赖关系和参数。论文采用少样本提示引导模型进行任务分解与规划。
模型选择（Model Selection）：将每个子任务分配给不同的专家模型，通过选择题形式确定最适配的模型。由于上下文长度有限，需先根据任务类型对模型进行初步筛选。
任务执行（Task Execution）：专家模型执行分配的具体任务并记录结果，再将结果传递给大型语言模型进行后续处理。
响应生成（Response Generation）：接收各专家模型的执行结果，最终向用户输出总结性答案。

五、LLM智能体应用（LLM Agent Applications）

生成式智能体（Generative Agents）（Park等人，2023）

该实验在沙盒环境中，通过25个由大型语言模型驱动的虚拟角色，模拟真实人类行为。其核心设计整合了记忆、检索、反思以及规划/反应机制，使智能体能够记录和回顾自身经历，提取关键信息以指导未来的行动与交互。

图32 生成式智能体沙盒截图（图片来源：Park等人，2023）

整个系统通过长时记忆模块记录所有观察到的事件，结合检索模型基于时效性、重要性和相关性提取信息，再通过反思机制生成高层推断，最终将这些结果转化为具体行动。该模拟展现了信息传播、关系记忆、社交事件协调等涌现行为，为交互应用提供了贴近真实的人类行为模拟。

WebVoyager

WebVoyager（何等人，2024）是一种基于大型多模态模型的自主网络交互代理，能够通过控制鼠标和键盘实现网页浏览。该系统采用经典的ReAct循环架构，在每个交互步骤中，首先通过类似SoM（标记集）的方法对浏览器截图进行标注，即在网页元素上添加数字标签以提供交互线索，随后基于这些视觉信息决定下一步操作。这种将视觉标注与ReAct循环相结合的设计，使用户能够通过自然语言与网页进行深度交互。具体实现可参考基于LangGraph框架的WebVoyager代码库。

OpenAI Operator

Operator（OpenAI，2025）是OpenAI最新发布的AI代理系统，旨在自主执行各类网络任务。其核心技术是计算机使用代理（CUA），该代理结合了GPT-4o的视觉感知能力与强化学习优化的推理能力，专门针对图形用户界面（GUI）交互场景进行训练，能够识别并操作屏幕上的按钮、菜单、文本框等元素。

CUA通过以下迭代循环完成任务：

感知阶段

通过截取浏览器屏幕截图，分析页面布局和元素结构。
推理阶段

利用思维链（Chain-of-Thought）技术，结合历史操作记录评估当前状态，规划下一步行动。
执行阶段

模拟鼠标点击、键盘输入和页面滚动等操作，无需依赖特定API即可完成复杂网络任务。

与WebVoyager相比，CUA通过强化学习实现端到端训练，而非直接调用GPT-4o的固定流程。尽管仍处于早期阶段，CUA已在多个基准测试中取得了领先成果。

六、深度研究系统

深度研究系统本质上是一种报告生成系统：通过用户查询触发，利用LLM作为核心代理，经过多轮迭代信息检索与分析后生成结构化深度报告。当前主流实现逻辑可分为两种模式：

工作流代理（Workflow Agent）

该模式依赖开发者预先设计的工作流和手动构建的提示词来组织整个生成过程，其核心特征包括：

任务分解与流程编排

将用户查询拆解为大纲生成、信息检索、内容总结等子任务，并按预设顺序执行。
固定流程

各阶段调用关系预定义，类似静态流程图或有向无环图（DAG），确保步骤责任明确。
人工设计依赖

主要依靠工程师经验优化提示词，适用性强但灵活性受限。

LangGraph框架可用于构建图形化工作流：

以下是常见工作流模式对比表：

模式	核心机制	优势	局限	典型场景
提示链	顺序调用LLMs，传递中间结果	适合分阶段推理，结果更精确	流程固定，延迟较高	文档生成（大纲→内容）、翻译润色
并行化	拆分任务并行处理或多模型投票	提升速度，结果更鲁棒	子任务需独立，资源消耗大	并行内容审核、多模型代码检测
路由	先分类再分配不同模型/流程	针对性强，效率提升	依赖分类准确性	客服查询路由、动态模型选型
评估-优化器	生成→评估→优化循环	提升结果质量，适合标准化任务	成本高，多轮迭代增加延迟	翻译优化、多轮检索精炼
协调器-工作者	中央协调动态分解调度子任务	灵活性高，可处理复杂任务	架构复杂，调度成本高	多文件代码修改、实时研究整合
代理	LLM自主决策，环境反馈调用工具	高度灵活，适应动态环境	可预测性低，需控制成本与安全	自主研究代理、交互式问题解决

目前GitHub上已有多个开源实现，如GPT Researcher和open deep research：

强化学习代理（RL Agent）

该模式通过强化学习训练推理模型，优化多轮搜索、分析和报告撰写过程：

自主决策

通过奖励机制引导代理在复杂任务中自主调整策略，提升生成效率。
持续优化

利用奖励反馈迭代更新策略，从任务分解到最终报告实现全流程质量提升。
减少人工干预

相较于固定流程，降低对提示词设计的依赖，更适合真实场景的动态变化。

两种模式的核心差异如下表所示：

特征	工作流代理	强化学习代理
流程设计	预定义固定工作流	端到端学习，动态调整流程
自主决策	依赖人工提示，决策流程固定	通过RL实现自主判断与策略优化
人工干预	需要大量提示词设计与调优	通过奖励机制自动反馈优化
灵活性	适应复杂场景能力较弱	高灵活性，适合动态变化环境
优化机制	依赖工程师经验，缺乏闭环反馈	利用RL奖励实现自动化持续改进
实现难度	相对简单但需繁琐流程维护	初期投入大但长期效果更优
是否需要训练	无需额外训练	需要通过RL训练推理模型

OpenAI深度研究系统（OpenAI Deep Research）

OpenAI深度研究系统（OpenAI，2025）是OpenAI于2025年2月正式发布的智能代理，专为复杂场景设计。它能自动完成多源信息的搜索、筛选、分析与整合，最终生成高质量综合报告。该系统以o3模型为核心基础模型，融入强化学习方法，显著提升了多轮迭代搜索与推理过程的准确性和鲁棒性。

相较于传统基于ChatGPT插件的搜索或常规检索增强生成（RAG）技术，OpenAI深度研究系统具备以下突出优势：

强化学习驱动的迭代推理

借助o3推理模型与强化学习训练策略，代理在多轮搜索和总结过程中可持续优化推理路径，有效降低误差累积导致的信息失真风险。
多源信息整合与交叉验证

突破单一搜索引擎的局限，可同时调用特定数据库、专业知识库等各类权威数据源，通过交叉验证形成更可靠的研究结论。
高质量报告生成

训练阶段引入“大型语言模型作为评估者（LLM-as-a-judge）”评分机制与严格评估标准，使系统在输出报告时能自我评估，进而生成结构更清晰、论证更严谨的专业文本。

训练过程（Training Process）

OpenAI深度研究系统的训练采用了专为研究场景定制的浏览器交互数据集。通过这些数据集，模型掌握了搜索、点击、滚动、文件解析等核心浏览功能，还学会在沙盒环境中使用Python工具进行计算、数据分析与可视化。此外，通过对这些浏览任务的强化学习训练，模型能够在海量网站中高效完成信息检索、整合与推理，快速定位关键信息或生成综合研究报告。

这些训练数据集既包含可自动评分的、带有真实标签答案的客观任务，也包含配有详细评分标准的开放式任务。训练过程中，模型的响应会与真实标签答案或评分标准进行严格比对，评估模型还会利用生成的思维链（CoT）思考过程提供反馈。

同时，训练过程复用了o1模型训练阶段积累的安全数据集，并补充了针对深度研究场景的专属安全训练数据，确保模型在自动搜索和浏览过程中严格遵守相关合规与安全要求。

性能表现（Performance）

该模型在“人类终极测试（Humanity’s Last Exam）”基准测试（Phan等人，2025）中取得了当前最优（state-of-the-art）结果。该基准测试用于评估AI在多个专业领域回答专家级问题的能力。

未来方向（Future Directions）

智能代理前景广阔，但要实现可靠且广泛的应用，仍需解决以下关键挑战：

上下文窗口限制

大型语言模型的上下文窗口有限，限制了可处理的信息量，影响长期规划与记忆能力，降低任务连贯性。当前研究正探索外部记忆机制与上下文压缩技术，以增强长时记忆和复杂信息处理能力。目前OpenAI最新模型GPT-4.5（OpenAI，2025）的最大上下文窗口为128k tokens。
接口标准化与互操作性

当前基于自然语言的工具交互缺乏格式统一性。模型上下文协议（MCP，Model Context Protocol）（Anthropic，2024）旨在通过开放标准统一大型语言模型与应用程序的交互方式，降低开发复杂度，提升系统稳定性与跨平台兼容性。
任务规划与分解能力

智能代理在为复杂任务制定连贯计划、有效分解子任务方面存在不足，且在突发情况下缺乏动态调整能力。需研发更强大的规划算法、自我反思机制与动态策略调整方法，以灵活应对不确定环境。
计算资源与经济可行性

大型模型代理的部署需多次调用API且计算密集，成本较高，限制了其在部分实际场景的应用。优化方向包括更高效的模型架构、量化技术、推理优化、缓存策略与智能调度机制。随着NVIDIA DGX B200等专用GPU硬件及分布式技术的发展，计算效率有望大幅提升。
安全与隐私保护

智能代理面临提示词注入等安全风险，需建立稳健的身份验证、权限控制、输入验证与沙盒环境。对于多模态输入和外部工具，需强化数据匿名化、最小权限原则与审计日志，满足安全与隐私合规要求。
决策透明度与可解释性

智能代理的决策过程难以解释，限制了其在高风险领域的应用。提升可解释性需开发可视化工具、思维链追踪与决策依据生成机制，以提高决策透明度、建立用户信任并满足监管要求。

七、如何系统的学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述