功能

浏览器自动化

智能体替你操作浏览器 —— 导航、点击、输入、读取等。

智能体通过内置工具集控制浏览器,因此你可以让它在网页上做事,而不仅是回答问题。

它能做什么

导航 —— 打开 URL,前进/后退。
读取 —— 获取页面文本或 Markdown,以及页面结构的无障碍树(accessibility tree)快照。
交互 —— 点击、输入、填写字段、滚动、上传文件。可按描述或按稳定的元素 id 定位元素。
检查 —— 查找元素、查询 DOM、读取元素详情。
标签页 —— 列出、查询并在已打开的标签页间切换。
截图 —— 抓取屏幕截图。
执行 JS —— 在页面上运行 JavaScript。
等待 —— 在继续前等待元素或条件。

它还具备**智能输入(smart input)**引擎:探测目标字段、选择最佳输入策略并验证结果。

示例

打开 Hacker News,给我热门前 5 条的标题。

用我 User 资料里的信息填写此页的注册表单,但在提交前停下来让我先检查。

浏览器操作遵循你的权限设置。在 Confirm before actions 下, 你逐步批准;在 Auto-execute 下,智能体自行推进。

智能体

侧边栏智能体如何工作 —— 对话、权限、计划与工具。

电脑控制

不止浏览器 —— 智能体还能使用你的鼠标、键盘和屏幕。

本页目录

它能做什么示例