dify实现分析-agent-Agent的类设计

一铭

已于 2025-05-06 08:45:02 修改

阅读量859

点赞数 13

分类专栏：大模型(LLM) 文章标签：人工智能大模型 LLM 语言模型

于 2025-05-06 08:44:07 首次发布

本文链接：https://blog.csdn.net/zg_hover/article/details/147726605

版权

大模型(LLM) 专栏收录该内容

83 篇文章

订阅专栏

dify实现分析-agent-Agent的类设计

概述

本文分析了Dify的Agent设计框架。分析类Dify Agent相关的各个类的实现和关系。并对各个类的功能进行类分析。

Agent类的关系

各个类的功能分析

BaseAgentRunner 类分析

BaseAgentRunner 是一个智能体运行器的基类，提供了智能体运行所需的基础功能实现。

1. 初始化与配置管理

def __init__(self, tenant_id: str, application_generate_entity: AgentChatAppGenerateEntity, ...):
  self.tenant_id = tenant_id
  self.application_generate_entity = application_generate_entity
  self.conversation = conversation
  self.app_config = app_config
  \# ...

管理租户信息
处理应用配置
初始化模型实例
设置回调处理

2. 工具管理

def _init_prompt_tools(self) -> tuple[Mapping[str, Tool], Sequence[PromptMessageTool]]:
    # 初始化工具实例和提示消息工具
    tool_instances = {}
    prompt_messages_tools = []
    # ...

转换工具为提示消息格式
管理数据集工具
维护工具实例映射

3. 思考记录管理

def create_agent_thought(self, message_id: str, ...) -> MessageAgentThought:
    thought = MessageAgentThought(
        message_id=message_id,
        message_chain_id=None,
        thought="",
        # ...
    )

创建思考记录
保存思考过程
更新使用统计

4. 历史对话管理

def organize_agent_history(self, prompt_messages: list[PromptMessage]) -> list[PromptMessage]:
    # 组织历史对话记录
    result = []
    # ...

组织系统消息
管理对话历史
处理工具调用记录

5. 变量管理

def update_db_variables(self, tool_variables: ToolRuntimeVariablePool, db_variables: ToolConversationVariables):
    # 更新数据库变量
    db_variables.variables_str = json.dumps(jsonable_encoder(tool_variables.pool))

更新运行时变量
管理会话变量
序列化变量存储

CotAgentRunner类

CotAgentRunner(Chain of Thought Agent Runner)是一个基于思维链的智能体运行器，继承BaseAgentRunner。主要实现了多轮对话中的思维推理过程。

主要功能

思维链管理

维护智能体的思考过程
记录历史对话
追踪思考状态和工具调用

多轮对话支持

while function_call_state and iteration_step <= max_iteration_steps:

执行思维链循环，直到得到最终答案或达到最大迭代次数

工具调用集成

动态加载工具实例
执行工具调用
处理工具响应

状态管理

def _init_react_state(self, query) -> None:
  self._query = query
  self._agent_scratchpad = []
  self._historic_prompt_messages = self._organize_historic_prompt_messages()

LLM交互

组织提示信息
调用LLM模型
处理响应流

FunctionCallAgentRunner类

基于函数调用的智能体运行器类，主要功能是处理智能体（Agent）与LLM（大语言模型）之间的交互，特别是处理工具调用和流式输出。以下是该类的主要功能分析：

核心功能
- 实现基于函数调用的智能体运行逻辑
- 支持工具调用和多轮对话
- 处理流式输出和非流式输出
- 管理智能体的思考过程和工具调用结果
主要特点：
- 工具调用：能够识别LLM返回的工具调用请求，并执行相应的工具
- 迭代控制：支持最大迭代次数控制，防止无限循环
- 状态管理：维护智能体的思考状态和工具调用状态
- 流式处理：支持流式输出，可以实时处理LLM的返回结果
- 事件发布：通过队列管理器发布各种事件，如思考事件、文件事件等
关键方法：
- run()：主运行方法，处理整个智能体的执行流程
- check_tool_calls()：检查LLM返回结果中是否包含工具调用
- extract_tool_calls()：从LLM返回结果中提取工具调用信息
- _organize_prompt_messages()：组织提示信息，包括系统消息、用户查询和历史对话
主要工作流程：

初始化查询和应用配置
设置最大迭代次数
主循环执行：
- 组织提示信息
- 调用LLM获取响应
- 检查并处理工具调用
- 执行工具并处理结果

更新智能体状态

发布结束事件

CotCompletionAgentRunner类

是一个基于思维链（Chain of Thought, CoT）的智能体运行器类，主要功能是组织和处理提示信息，以便与LLM（大语言模型）进行交互。

核心功能：
- 组织和构建用于LLM交互的提示信息
- 处理思维链（CoT）相关的提示信息
- 管理历史对话和当前对话状态
- 生成完整的提示信息供LLM使用
主要特点：
- 提示信息组织：能够将系统提示、历史对话、当前思考和用户查询整合成完整的提示信息
- 思维链支持：支持思维链推理过程，包括思考、行动和观察的记录
- 模板替换：使用模板变量（如{{instruction}}、{{tools}}等）动态生成提示信息
- 历史对话管理：能够处理和组织历史对话信息
关键方法：
- _organize_instruction_prompt()：组织系统提示信息，包括指令、工具列表等
- _organize_historic_prompt()：组织历史对话信息
- _organize_prompt_messages()：整合所有提示信息，生成最终的提示信息供LLM使用

CotChatAgentRunner类

一个基于思维链（Chain of Thought, CoT）的聊天智能体运行器类，主要功能是组织和处理聊天场景中的提示信息，以便与LLM（大语言模型）进行交互。

核心功能：
- 组织和构建用于聊天场景的提示信息
- 处理思维链（CoT）相关的提示信息
- 管理聊天历史记录和当前对话状态
- 支持文件（包括图片）的处理和提示信息生成
主要特点：
- 聊天场景优化：专门为聊天场景设计，支持多轮对话
- 文件处理：能够处理用户上传的文件，并将其转换为提示信息
- 思维链支持：支持思维链推理过程，包括思考、行动和观察的记录
- 模板替换：使用模板变量（如{{instruction}}、{{tools}}等）动态生成提示信息
- 历史对话管理：能够处理和组织历史对话信息
应用场景：
- 需要思维链推理的聊天应用
- 需要处理用户上传文件的对话场景
- 需要结合历史对话和当前思考的复杂聊天任务处理