一、开篇引入
2026年春季,腾讯在AI应用领域打出了一套组合拳。4月8日,腾讯正式发布国内首个AI驱动的浏览器产品 “龙虾”QBotClaw,将浏览器从单纯的网页访问工具升级为具备全场景感知与复杂任务执行能力的AI助理-3。紧接着,腾讯云首次发布涵盖基础设施、模型、生态到应用的 Agent产品全景图,构建了从个人到企业、从底层算力到上层应用场景的完整智能体产品体系-6。这些密集发布的核心产品,共同构成了 腾讯助手AI 战略的技术底座。

对广大开发者而言,理解这套技术栈的价值远不止于会用——当前AI正经历从“Chatbot(对话式机器人)”向“AI Agent(智能体)”的范式跃迁-2。如果你还在把AI当作一个只会“聊天”的工具,那已经落后了。真正的AI助手应当是能理解、会规划、可执行的智能体系统。
很多学习者在接触这一领域时常常陷入以下痛点:

只会调用API:知道怎么向大模型发请求,但不懂背后的架构设计
概念混淆不清:分不清“LLM(大语言模型)”、“Agent”、“Skills”、“MCP”这些概念的区别与联系
面试答不出深度:被问到“Agent和Workflow有什么区别”时,只能答出皮毛
本文将从腾讯最新发布的产品入手,以QBotClaw为核心案例,深入讲解AI Agent的核心理念、架构设计和工程化实践,并通过代码示例和高频面试题,帮助读者建立完整的知识链路。后续还将推出系列文章,详解MCP协议、Skills生态和Agent记忆管理等进阶话题。
二、痛点切入:为什么需要AI Agent?
在理解腾讯助手AI的技术价值之前,我们先回顾传统AI交互方式的问题所在。
传统实现方式:传统的大模型应用大多是“一次性问答”模式。开发者调用LLM的API,传入用户问题,模型返回答案——任务结束。
传统方式:纯LLM调用示例 import requests response = requests.post( "https://api.hunyuan.tencent.com/v1/chat/completions", headers={"Authorization": "Bearer YOUR_API_KEY"}, json={ "model": "hunyuan-turbo", "messages": [{"role": "user", "content": "帮我查一下今天的天气"}] } ) print(response.json()["choices"][0]["message"]["content"]) 输出:模型会告诉你“我无法实时查询天气,建议你打开天气应用”
这种方式的问题非常明显:
能力边界有限:模型无法主动调用外部工具(如查询数据库、操作浏览器、发送邮件等),只能给出“建议”而非“执行”
缺乏上下文记忆:每次对话都是独立的,无法跨会话保持状态
无法执行复杂任务:对于一个“帮我搜集XX资料并整理成报告”的多步骤任务,纯LLM调用根本无法完成
正是这些痛点的存在,催生了 AI Agent 的诞生。汤道生指出,AI落地不仅是一道算法题,更是一道工程题——随着主流大模型能力差距逐步缩小,企业比拼的重点将转向如何通过工程化手段将模型用好-2。
三、核心概念讲解:什么是AI Agent?
标准定义
AI Agent(人工智能智能体) :一个能够感知环境、自主规划、调用工具并执行任务的智能系统。它以大语言模型为“大脑”,配备工具调用能力和执行权限,实现从“知道”到“做到”的跨越。
拆解关键词
感知:Agent能够理解用户意图,并感知当前上下文环境
规划:将复杂任务分解为可执行的子任务序列
调用工具:通过Function Call(函数调用)、MCP(模型上下文协议)等机制调用外部API和系统能力
执行:真正去“做事”,而不仅仅是“说话”
生活化类比
想象一下你有一个私人助理:
LLM(大模型) 就像这个助理的“大脑”——有知识、能思考,但如果不配上手脚,它就只是个“书呆子”
Agent 则是这个助理的“完整形态”——有大脑、有感知、有手脚、能规划执行
当你吩咐“帮我查下周深圳去北京的机票,顺便预约会议室”时:
纯LLM会告诉你:“建议你打开携程查机票,然后在日历上预约会议室”
Agent则会:自动打开浏览器→航班→记录最优选项→打开日历→创建会议邀请→通知你完成
腾讯助手AI的实践
腾讯最新推出的QBotClaw正是这一理念的落地产品。它内置了“有脑”和“有眼”的智能自动化能力——不仅能理解浏览器上下文信息,还能通过高精度网页识别技术操作界面元素。用户通过自然语言指令,即可令其自动完成资料搜集、文案撰写、跨平台比价、多页面内容分析生成报告等复杂任务-1。
四、关联概念讲解:QBotClaw与Agent框架的关系
QBotClaw 是什么?
QBotClaw(昵称“龙虾”)是腾讯基于OpenClaw开源生态打造的本地AI助手,已深度集成在QQ浏览器中。它的核心特点是 “零门槛、免下载、免部署” ,用户打开浏览器即可使用-1。在技术架构上,QBotClaw通过内置的X5use高精度识别技术赋予浏览器敏锐的视觉感知,结合上下文感知能力,用户仅需通过简单指令即可让浏览器自主执行跨页面的复杂任务-3。
OpenClaw 是什么?
OpenClaw 是一款具备系统级操作权限的开源执行型AI Agent框架。其核心价值在于充当“物理网关”,将大语言模型的推理能力转化为对本地操作系统、文件系统及应用接口的真实执行动作-。
二者的关系
简单来说:
OpenClaw 是 “发动机” ——提供底层的调度和执行能力
QBotClaw 是 “整辆车” ——基于OpenClaw进行二次开发,增加了微信/QQ的社交链路对接、国产大模型的预集成,以及图形化安装界面-
腾讯还构建了更宏观的 Agent产品全景图,围绕基础设施层、模型服务层、技能生态层、AI应用层和安全层五个层面展开-13:
| 层级 | 作用 |
|---|---|
| Agent基础设施层 | 企业应用Agent的“操作系统”,提供技术底座与治理平台 |
| 模型服务层(TokenHub) | 集成混元、MiniMax、DeepSeek、Kimi等主流模型 |
| 技能生态层 | 开放自研技能、开源SkillHub,打通微信、企微、QQ等生态 |
| AI应用层 | 围绕个人提效、企业营销、知识管理等场景的产品矩阵 |
| 安全层 | 针对Agent自主执行能力的系统性安全保障 |
五、概念关系与区别总结
核心逻辑关系
| 概念 | 定位 | 一句话概括 |
|---|---|---|
| LLM(大语言模型) | “大脑” | 知道“说什么” |
| Agent(智能体) | “完整的人” | 知道“做什么 + 怎么做” |
| OpenClaw | “框架/协议” | Agent的“标准化调度机制” |
| QBotClaw | “产品” | 腾讯的“开箱即用AI助手” |
一句话记忆:LLM是思想,Agent是思想+行动,OpenClaw是行动的标准协议,QBotClaw是标准协议的腾讯产品化。
与关联概念的对比
| 对比维度 | LLM | Agent | Workflow(工作流) |
|---|---|---|---|
| 自主性 | 低(被动响应) | 高(主动规划) | 无(按预设路径执行) |
| 决策能力 | 单次推理 | 多步规划+动态调整 | 无决策,纯执行 |
| 适用场景 | 问答、文本生成 | 复杂任务、多步操作 | 固定流程业务 |
六、代码示例演示
下面通过一个完整的示例,演示如何基于腾讯助手AI的能力调用混元大模型API,并理解Agent层面的核心逻辑。
基础调用:Python调用腾讯混元大模型API
import requests import json def call_hunyuan(prompt): """ 调用腾讯混元大模型API的极简示例 这是“纯LLM调用”阶段,属于Agent中的“大脑”部分 """ url = "https://api.hunyuan.tencent.com/v1/chat/completions" headers = { "Content-Type": "application/json", "Authorization": "Bearer YOUR_API_KEY" 需要替换为真实API Key } payload = { "model": "hunyuan-turbo", 指定使用的模型 "messages": [ {"role": "user", "content": prompt} ], "temperature": 0.7, 控制输出随机性 "max_tokens": 2000 控制输出长度 } response = requests.post(url, headers=headers, json=payload) result = response.json() 提取返回内容 return result["choices"][0]["message"]["content"] 示例调用 if __name__ == "__main__": answer = call_hunyuan("用三句话介绍AI Agent的核心能力") print(answer)
Agent级别的任务编排(模拟版)
这是一个简化的Agent任务编排逻辑,展示Agent如何“思考+执行” class SimpleAgent: def __init__(self, llm_api_function): self.llm = llm_api_function Agent的“大脑” self.tools = { "search_web": self._search_web, 工具1:网页 "read_file": self._read_file, 工具2:读取文件 "send_email": self._send_email 工具3:发送邮件 } def execute(self, user_command): """ Agent执行的核心流程: 1. 理解用户意图 2. 规划执行步骤 3. 调用相应工具执行 4. 返回执行结果 """ Step 1: 意图理解和任务分解 plan = self._plan_tasks(user_command) Step 2: 按计划执行 results = [] for task in plan: tool_name = task["tool"] params = task["params"] if tool_name in self.tools: result = self.tools[tool_name](params) results.append(result) Step 3: 汇总结果 return self._summarize_results(results) def _plan_tasks(self, command): """ 调用LLM进行任务规划 实际项目中会使用精心设计的Prompt + Function Call机制 """ 这里是简化的模拟逻辑 prompt = f"将以下命令分解为可执行的步骤序列:{command}" plan_text = self.llm(prompt) 实际项目中需要解析LLM返回的JSON格式 return [{"tool": "search_web", "params": "示例参数"}] 工具函数实现(简化版) def _search_web(self, query): return f" '{query}' 的结果..." def _read_file(self, path): return f"文件 {path} 的内容..." def _send_email(self, content): return f"邮件已发送:{content}"
QBotClaw的实际工作流程
根据腾讯官方介绍,QBotClaw的工作机制可概括为:
感知阶段:通过X5use高精度识别技术感知浏览器页面内容
理解阶段:LLM理解用户的自然语言指令
规划阶段:将复杂任务分解为可执行的子任务
执行阶段:通过内置Skills操作浏览器元素、调用API、处理文件等
反馈阶段:将执行结果返回给用户
支持用户自行配置接入其他主流大模型的API Key,打破了以往AI浏览器与单一模型深度绑定的局限-3。
七、底层原理与技术支撑
腾讯助手AI体系的底层技术支撑可以概括为以下几个方面:
1. 模型服务层:TokenHub
TokenHub是一个大模型服务平台,不仅集成了腾讯自研的混元大模型,还兼容了MiniMax、百川智能、智谱GLM、DeepSeek以及Kimi等主流模型,旨在根据用户的不同预算和场景需求,实现“大脑”的智能匹配-11。
2. Agent调度框架:OpenClaw三层架构
OpenClaw的智能体架构呈现出清晰的层级关系-:
Gateway(网关层) :像中枢神经,负责任务调度、生命周期管理和事件路由
主Agent(调度层) :像项目经理,接收用户输入后进行意图理解和任务分解
Tools/Skills(执行层) :具体调用各种工具执行子任务
3. 记忆管理:Agent Memory
腾讯云自研的Agent Memory服务为OpenClaw补上了长期记忆能力。对于简单的日常对话上下文跟随,原生OpenClaw能够处理,但面对长周期、跨会话的复杂项目,原生框架容易出现“失忆”问题。腾讯云数据库团队引入独创的四层渐进式记忆架构来攻克这一难题-11。
4. 工程化支撑:Harness(脚手架)
汤道生提出的 “大模型的脚手架” 概念值得关注——包括工具调用、分层上下文工程、长记忆管理、工作流设计等系统工程手段,在不改变模型架构和参数的基础上,把模型能力最大程度发挥出来-6。
底层依赖的技术知识点
| 技术点 | 作用 |
|---|---|
| 函数调用(Function Call) | 让LLM能够“请求”调用外部工具 |
| 上下文工程(Context Engineering) | 管理长对话中的信息传递 |
| 反射与代理(Java/Python) | 实现动态工具注册和调用 |
| 沙箱安全 | 隔离Agent执行环境,防止权限滥用 |
八、高频面试题与参考答案
面试题1:LLM和Agent有什么区别?
参考答案:
LLM(大语言模型) 是Agent的“大脑”组件,具备语言理解和生成能力,但它本身无法主动执行操作,只能输出文本。
Agent 是以LLM为核心的完整智能系统,额外配备了工具调用(Tool Use) 、任务规划(Planning) 和记忆管理(Memory) 三大核心能力。它不仅能“理解”,还能“执行”。
一句话总结:LLM知道“说什么”,Agent知道“做什么”以及“怎么做”。
面试题2:Agent和Workflow有什么区别?
参考答案:
Workflow(工作流) 是预定义的、固定的任务执行路径,每一步都是提前写死的,没有自主决策空间。
Agent 是动态规划的,由LLM根据当前输入实时决定调用哪些工具、按照什么顺序执行,具有自适应能力。
举例:Workflow像是“流水线”,Agent像是“项目经理”——后者会根据实际情况灵活调整。
面试题3:Function Call、MCP、Skills三者有什么区别?
参考答案:
Function Call 是LLM调用外部函数的基础机制,LLM在输出中声明“我想调用某个函数”,由外围系统执行。
MCP(模型上下文协议) 是一个标准化的协议,定义了LLM与外部工具之间的通信规范,让不同厂商的模型和工具能够互通。
Skills 是腾讯Agent生态中的封装好的功能模块,是对外暴露的具体能力(如“发送邮件”“读取文档”)。
关系:MCP是“通信协议”,Function Call是“调用方式”,Skills是“被调用的能力单元”。
面试题4:Agent如何实现长期记忆?
参考答案:
短期记忆:通过对话历史上下文(Context Window)实现,但受限于模型窗口长度。
长期记忆:通过外部向量数据库存储历史对话和关键信息,每次交互时检索相关记忆并注入Prompt。
腾讯云的Agent Memory服务采用了四层渐进式记忆架构,解决了跨会话的长期记忆问题,准确率较原生OpenClaw提升了近六成-11。
面试题5:Agent在执行任务时如何保证安全?
参考答案:
沙箱隔离:Agent运行在安全沙箱中,限制对敏感系统资源的直接访问-6。
权限分级:不同任务需要不同级别的授权,高危操作需用户确认。
操作审计:记录Agent的所有执行动作,支持事后审计和回滚。
腾讯的Agent安全体系从底层Lighthouse原生安全到顶层AI Agent安全中心,建立了立体防护网-11。
九、结尾总结
本文围绕腾讯助手AI的核心产品——QBotClaw和Agent产品全景图,系统讲解了以下几个关键知识点:
AI Agent的核心概念:LLM是“大脑”,Agent是“完整的人”,实现了从“知道”到“做到”的跨越
技术架构解析:TokenHub模型服务平台 + OpenClaw调度框架 + 五层全景图体系
底层原理:Harness工程化能力 + Agent Memory记忆管理 + 沙箱安全机制
实战代码:混元API调用示例 + 简化版Agent任务编排逻辑
高频面试点:LLM vs Agent、Agent vs Workflow、Function Call vs MCP vs Skills 等核心对比
重点与易错点提醒
易错点1:不要把Agent等同于LLM——前者是系统架构,后者是组件
易错点2:不要混淆OpenClaw和QBotClaw——前者是开源框架,后者是腾讯产品
记忆口诀:LLM是脑,Agent是身,OpenClaw是经络,QBotClaw是成品
下期预告
下一篇将深入讲解 MCP(模型上下文协议)协议的原理与实践,包括MCP如何实现跨平台工具调用、与Function Call的对比,以及如何在腾讯云环境中快速搭建MCP服务,敬请期待!
参考资料:腾讯云官网、品玩、IT之家、站长之家、科创板日报等公开资料,2026年4月。