用户视角的使用链路与交互设计分析
研究时间:2026年4月
研究对象:16款主流AI Agent产品(含6款深度分析)
研究方法:用户使用链路拆解 + 交互设计分析 + 官方文档研究 + 权威媒体评测
本次研究共纳入16款具有代表性的AI Agent产品,覆盖通用Agent、工作流平台、开发者Agent、Browser Agent、企业数字员工等5条核心产品路线。所有入选产品均为2025年10月至2026年4月期间爆火或持续高速迭代的产品。
| # | 产品名称 | 归属 | 产品路线 | 分析深度 |
|---|---|---|---|---|
| 深度分析样本 | ||||
| 1 | ChatGPT Agent | OpenAI | 通用Agent / Browser Use | ✓ 深度 |
| 2 | Claude Code | Anthropic | 开发者Agent | ✓ 深度 |
| 3 | Coze(扣子) | 字节跳动 | 工作流 / Agent平台 | ✓ 深度 |
| 4 | 钉钉悟空 | 阿里巴巴 | 企业数字员工 | ✓ 深度 |
| 5 | Hermes Agent | Nous Research | 开发者Agent | ✓ 深度 |
| 6 | 通义千问 Agent | 阿里巴巴 | 通用Agent / 消费生态 | ✓ 深度 |
| 常规分析样本 | ||||
| 7-16 | OpenClaw、Coworker、Manus、Dify、Kimi Agent Swarm、腾讯元器、Copilot Studio、CrewAI、Gemini Agent、Trae SOLO | 详见第三部分摘要 | ||
| 产品路线 | 数量 | 代表产品 | 特征 |
|---|---|---|---|
| 通用Agent / 任务执行型 | 4 | ChatGPT Agent、Manus、通义千问 Agent、Kimi Agent Swarm | 追求通用性,依赖大模型推理 |
| 工作流 / Agent搭建平台 | 3 | Coze、Dify、腾讯元器 | 强调可控性,通过Workflow固化逻辑 |
| 开发者 / 编程Agent | 4 | Claude Code、OpenClaw、Hermes Agent、Trae SOLO | 专注代码环境,执行确定性高 |
| Browser / Computer Use | 2 | ChatGPT Agent、Gemini Agent | 模拟人类操作,通用性最强 |
| 企业协作 / 数字员工 | 4 | 钉钉悟空、Coworker、Copilot Studio、CrewAI | 强调安全可控,深度集成生态 |
ChatGPT Agent由OpenAI于2025年7月正式发布,是目前C端通用Agent体验的最高标杆。其核心定位是具备Browser Use能力的通用任务执行Agent,旨在替代用户在浏览器中繁琐的手动操作,主要服务于需要进行跨网页信息搜集、对比、预订和填表的知识工作者与普通消费者。
图1:ChatGPT Agent官网首页 - 极简的聊天界面设计
用户访问 chatgpt.com,登录或注册OpenAI账户。ChatGPT Agent功能需要订阅ChatGPT Plus($20/月)或更高套餐。首次登录后,用户进入主界面,顶部显示当前模型选择器(默认为ChatGPT 4.0或更高版本)。
与传统Chatbot不同,ChatGPT Agent的触发方式是自动识别意图。用户在聊天框输入复杂指令,系统自动判断是否需要启动Agent模式。例如:"帮我对比三款不同品牌的扫地机器人,价格在2000-3000元之间,并整理成表格"。
Agent启动后,界面展现的核心创新是过程透明度设计:对话框内嵌入一个动态执行面板,实时展示Agent当前正在浏览的网页截图(小窗口形式),显示当前执行步骤,用户可随时点击"Stop"中断执行。
任务完成后,Agent在聊天流中输出最终结果,通常包括结构化的对比表格、每个商品的详细信息和来源链接、推荐理由。用户可以在结果基础上继续追问,Agent会自动理解上下文并调整结果。
在涉及敏感操作时(如支付、提交表单、发送邮件),Agent会暂停并请求用户确认。这一设计体现了OpenAI在自治与安全之间的平衡:繁琐的执行交给Agent,关键的决策留给用户。
图2:ChatGPT Agent功能展示 - 实时展示浏览器操作过程
创新一:过程透明度的极致化
ChatGPT Agent的最大创新不在于能力本身,而在于让用户看到执行过程。这打破了传统AI黑盒的认知,用户从"相信AI"升级到"看着AI干活",极大地增强了心理安全感。
创新二:自然语言触发,零学习成本
不需要学习任何新概念或操作流程。用户只需像平时一样聊天,系统自动判断是否需要Agent模式。首页的Prompt建议进一步降低了认知负担。
创新三:多轮对话中的上下文理解
Agent能够在多轮对话中记住用户的约束条件和偏好,动态调整执行策略。这种记忆与理解能力是其他Browser Use产品难以复制的。
| 能力维度 | 支持情况 | 说明 |
|---|---|---|
| 多步骤任务规划 | ✓ 强 | 自主拆解长链路网页操作步骤 |
| 工具调用 | ✓ 强 | 深度集成Browser Use能力 |
| 浏览器操作 | ✓ 支持 | Browser Use,不支持全桌面Computer Use |
| 知识库 | ✓ 支持 | 通过GPTs生态可挂载外部知识 |
| 多人协作 | ✗ 不支持 | 偏向个人生产力工具 |
| 可观测性 | ✓ 高 | 实时展示浏览器操作画面 |
Claude Code由Anthropic于2025年下半年正式发布,是目前专业开发者群体中口碑最高的编程Agent。其核心定位是专注终端环境的自主编程Agent,旨在替代开发者在终端中繁琐的代码编写、调试和重构工作。
图3:Claude Code官网 - 强调终端原生设计
Claude Code采用CLI(命令行界面)模式,用户需要:安装Anthropic CLI工具(通过npm或pip),配置API密钥(从Anthropic控制台获取),在项目目录下初始化Claude Code环境。这个过程对熟悉终端的开发者而言极为简单,通常不超过5分钟。
在项目目录下运行 claude 命令启动Agent。终端展示一个交互式界面,等待用户输入指令。
用户以自然语言输入复杂的代码任务,例如:"帮我重构这个Python脚本,提取出公共函数,并添加错误处理"。
Claude Code读取当前目录下的代码文件,分析项目结构和依赖关系。在终端中输出思考过程:识别的代码文件列表、理解的项目架构、提出的重构方案。这个过程对用户完全可见,用户可以在任何时刻打断并提供反馈。
Agent生成修改后的代码,但关键设计:在应用代码修改前,会暂停并在终端中展示完整的代码差异(Diff)。用户看到红色部分(删除)、绿色部分(新增)、黄色部分(修改)。
图4:Claude Code终端界面 - Diff展示设计
创新一:CLI原生设计
不是妥协,而是深思熟虑的产品选择。开发者的核心工作流本就在终端和代码编辑器中,任何额外的GUI都是认知负担。Claude Code通过在开发者最熟悉的环境中工作,极大地降低了使用摩擦。
创新二:修改前必须确认
这是Anthropic在安全性设计上的一贯风格。不追求"最自动",而是追求"最安全"。这一设计使得开发者愿意将重要的生产代码交给它处理。
创新三:完整的项目结构理解
Claude Code能够理解跨文件的函数调用关系、依赖关系和模块结构,这种深度的代码理解能力是其他编程Assistant难以复制的。
Coze(国内版"扣子")由字节跳动推出,2026年4月发布了重大版本更新Coze 2.5,引入了Agent World等新特性。其核心定位是国内最成熟的低代码Agent搭建与工作流编排平台,旨在降低AI应用开发的门槛,替代传统的硬编码开发模式。
图5:Coze官网首页 - "Hello, Agent World"主题
用户访问 coze.cn,选择手机号或账号注册。注册流程简洁,通常2-3分钟完成。登录后进入Coze控制台,左侧为资源区(我的Bot、知识库、插件等),中间为主工作区。
Coze提供了分层设计,满足不同能力层次的用户:
路径A:快速Bot创建(极简模式) - 点击"创建Bot",输入Bot名称和描述,选择预设模板或自定义Prompt,立即可用。
路径B:复杂工作流编排(专业模式) - 进入Workflow画布,通过拖拽节点设计复杂业务逻辑。
用户在Workflow画布上拖拽节点(大模型、代码块、条件判断、API调用等)设计复杂业务逻辑。在右侧的预览窗口实时对话测试。支持的节点类型包括:大模型节点、代码块节点、条件判断节点、API调用节点、人工确认节点、知识库检索节点、插件节点。
用户在右侧预览窗口输入测试指令后,Coze自动执行工作流。每个节点的执行过程完全可见:节点执行顺序以高亮显示,每个节点的输入输出数据可查看,执行耗时显示在节点上,如果某个节点出错,错误信息详细展示。
Coze 2.5的重大创新之一是多渠道一键发布:发布渠道包括微信公众号、飞书、钉钉、网页弹窗、API接入、Coze平台内分享。发布后,用户可以在各个渠道实时看到Bot的运行情况,并在Coze控制台查看统一的数据分析。
图6:Coze 2.5发布公告 - Agent World新特性
Coze 2.5引入的"Agent World"是一个Bot生态市场,用户可以:
这个生态设计的核心目标是降低创作者的变现门槛,鼓励更多优质Agent的产出。
钉钉悟空由阿里巴巴旗下钉钉于2026年3月17日正式发布,取代了原有的DEAP(钉钉企业Agent平台)架构。其核心定位是CLI化重构的企业级原生Agent平台与数字员工,旨在替代企业内部繁琐的跨系统操作。
本次分析基于新浪科技、品玩等权威媒体的深度报道及阿里巴巴集团官方公告。
图7:钉钉悟空阿里官方公告
钉钉悟空的使用分为两个角色:企业IT管理员和普通员工。IT管理员需要在钉钉管理后台:启用悟空功能(需要专业版或以上),配置企业内部系统的API接口(如财务系统、HR系统、CRM等),定义悟空可以执行的操作权限(RBAC),设置审批流和数据安全策略。
员工在钉钉客户端的任何地方都可以与悟空交互。
方式一:顶部搜索栏 - 点击钉钉顶部搜索栏,输入自然语言指令。
方式二:群聊中@悟空 - 在项目群或部门群中@悟空,输入指令。
方式三:专属对话框 - 打开与悟空的专属对话窗口,进行多轮对话。
悟空识别用户的需求。例如:"帮我查一下上个月销售二部的差旅费总额,并生成报表发给李总"。系统识别这是一个"跨系统数据汇总 + 文档生成 + 消息发送"的复杂任务。
系统检查当前用户是否有权限查看销售二部的财务数据(RBAC)。调用财务系统API,查询上个月销售二部的差旅费明细。对返回的数据进行聚合、分类、统计。
调用钉钉文档能力,生成格式化的报表(包含图表、表格等)。如果涉及敏感操作(如发送给高管),系统会弹出确认卡片,需要用户点击授权。将生成的报表通过钉钉消息发送给李总。整个过程的操作日志被记录在审计系统中,供合规审查。
创新一:无缝融入办公场景
悟空不需要用户切换到任何新的App或界面。在日常聊天的场景中就能完成跨系统的复杂操作,极大地降低了企业员工的使用门槛。
创新二:上下文感知
悟空能够结合当前所在群聊的上下文理解意图。例如在"销售二部"的群聊中@悟空,它会自动理解"二部"指的是销售二部,而不需要用户明确说明。
创新三:CLI化架构的稳定性
不依赖UI自动化(RPA),而是直接调用底层系统的API。这意味着即使企业系统的界面发生变化,悟空的执行能力也不会受到影响。这是相比传统RPA的根本性优势。
创新四:企业级权限与审计
每一个操作都经过严格的权限校验和审计日志记录。这种设计确保了企业数据的安全性和合规性,是B端产品的必要条件。
Hermes Agent由Nous Research于2026年2月发布,两个月内在GitHub上狂揽7万星,成为2026年上半年最受关注的开源Agent项目之一。其核心定位是2026年爆火的自进化开源开发者Agent框架,旨在为开发者提供一个高度可定制、具备"自进化"能力的底层Agent框架。
图8:Hermes Agent GitHub仓库 - 7万星开源项目
用户从GitHub克隆Hermes Agent仓库:git clone https://github.com/nousresearch/hermes-agent.git
安装依赖通常需要5-10分钟,取决于网络速度。
用户创建一个Python脚本,定义Agent的基本参数:Agent的角色和能力、支持的模型(如gpt-4或其他支持的模型)、Agent可以使用的工具列表、启用向量数据库记忆。
开发者可以自由定义Agent可以使用的工具。每个工具都是一个Python函数,例如:
搜索学术论文的工具、分析代码质量的工具等。
启动Agent并输入复杂任务,例如:"Research the latest advances in AI Agent architectures and write a comprehensive report"。设置最多执行步骤数(如max_iterations=10)。
终端实时打印Agent的执行过程:思考过程、执行计划、调用的工具、获得的结果、自我反思。关键创新:Agent在执行任务的过程中,定期停下来反思当前的策略是否有效,如果发现错误或低效,自动调整执行策略。成功的经验被保存到长期记忆库,用于优化后续任务的执行。
自我反思机制
Agent在执行任务的过程中,定期停下来反思当前的策略是否有效。如果发现错误或低效,自动调整执行策略。这种"从错误中学习"的能力是当前绝大多数商业Agent产品所不具备的。
长期记忆机制
成功的经验被以向量或结构化数据形式持久化保存,用于优化后续任务的执行。例如,第一次搜索某个领域的论文时,Agent会记住最有效的搜索关键词和来源,下次遇到类似任务时直接使用。
通义千问 Agent由阿里巴巴推出,2026年春节期间处理了超过1.3亿笔订单,成为国内C端Agent商业落地的最重要验证案例。其核心定位是结合阿里消费生态的跨平台执行Agent,旨在替代用户在多个App之间切换、搜索、比价和下单的繁琐流程。
用户下载通义千问App或在淘宝App内打开AI入口。登录后进入首页,顶部是搜索框,下方是场景化模板(如"帮我挑礼物"、"规划旅行"等)。
用户通过文本或语音输入复杂的消费需求,例如:
"我想买一台适合送给长辈的血压计,预算500以内,要大品牌的"
"帮我规划一个五一三亚三日游,包括机票、酒店和景点门票"
Agent理解用户的需求后,如果信息不足,会主动追问:
"您对血压计的品牌有偏好吗?比如欧姆龙、松下还是国产品牌?"
这种主动补充信息的设计大大提高了推荐的准确性。
Agent调用阿里生态内的多个API:淘宝API(搜索商品),飞猪API(查询机票和酒店),高德API(搜索餐厅),饿了么API(本地生活服务)。整个过程在后台进行,用户看不到API调用的细节,只看到"正在查询..."的进度提示。
Agent将搜集到的信息整理成结构化的推荐列表,通常包括商品/服务的图片、名称、价格、关键指标对比、用户评价摘要、购买/预订按钮。用户可以在结果基础上继续追问。点击"购买"或"预订"后,Agent自动将商品加入购物车或预订,跳转至支付确认页面。在涉及支付的关键节点,Agent会暂停并请求用户确认。
2026年春节期间,通义千问 Agent处理了1.3亿笔订单,这个数字的背后反映了什么?
创新一:对话式的购物体验
打破了传统电商"搜索 → 浏览列表 → 点击商品 → 查看详情 → 加入购物车 → 支付"的繁琐流程。用户只需自然语言表达需求,Agent自动完成所有中间步骤。
创新二:主动补充信息
Agent不是被动地接收用户指令,而是主动识别信息缺口并追问。这种智能对话大大提高了推荐的准确性和用户满意度。
创新三:生态闭环的执行能力
通义千问 Agent不仅能"告诉你怎么买",还能"替你直接买"。这种闭环执行能力是其他通用大模型难以复制的。
ChatGPT Agent和通义千问 Agent都采用了极简的"聊天式"交互,但在底层驱动上走向了截然不同的两条路:
这一分化将在未来两年内决定各自的能力天花板和商业化路径。Browser Use的优势是通用性强(任何有网页界面的服务都能操作),劣势是稳定性受限于网页结构变化和模型幻觉。API闭环的优势是执行稳定性极高(1.3亿笔订单的验证),劣势是能力边界受限于生态内的API覆盖范围。
Coze和钉钉悟空在设计哲学上高度一致:绝对优先保证"确定性"和"可控性",通过工作流编排或严格的权限校验来限制大模型的自由发挥。这种设计选择在当前大模型幻觉问题尚未完全解决的背景下,是最务实的企业级产品策略。
Claude Code和Hermes Agent都面向开发者,但设计哲学截然相反:
这种分化折射出整个Agent行业在"安全可控"与"极致自治"之间的根本性张力。
拥有庞大SaaS生态(如钉钉、Salesforce)或消费生态(如阿里)的平台,其Agent的落地价值远超纯通用大模型厂商。通义千问 Agent的1.3亿笔订单、钉钉悟空的企业级应用,都证明了生态闭环的执行能力是决定性因素。模型能力是必要条件,但生态才是决定性条件。
ChatGPT Agent实时展示网页操作画面,Claude Code展示代码Diff,这种"看着AI干活"的设计是建立用户信任的关键。没有过程透明度的Agent,用户很难真正放心地将重要任务交给它。
在关键节点(如支付、修改代码、发送邮件)请求人工确认,既保障了安全,又赋予了用户可控感。这是在当前模型能力下最务实的产品设计策略,也是所有深度分析样本的共同特征。
炫酷的思考动画是表面智能;像Claude Code那样在修改代码前精准展示Diff并请求确认,才是真正提高任务完成率的设计。
让Agent自动玩游戏是Demo感强;像Coze那样提供完善的节点日志和调试工具,让企业敢于把核心业务交接给Agent,才是长期产品价值。
在当前模型能力下,"半自动协作(Human-in-the-loop)"远比"全自动自治(Fully Autonomous)"更具商业价值。把繁琐的执行交给Agent,把关键的决策和确认留给人,是目前最务实的产品设计哲学。