


用日常英语描述/自动化一个任务,它就能驱动真实浏览器执行:浏览网站、完成多步骤操作流程、填写表单、抵达仅通过交互才能渲染的页面。结果通过一次API调用流式返回。这是一个可直接调用的API,而非需要安装的框架。内置浏览器和LLM,无需托管,无并发上限。基于无障碍树(Accessibility-tree)的自动化方案比基于截图的智能体节省60%至80%的令牌消耗。由Mozilla构建。临时性处理,不会用您的数据进行训练。
Tabstack 浏览器自动化是一个 API,它允许你用自然语言描述一个网页任务,并在真实浏览器中执行。你只需提交一个任务,比如“查找从旧金山国际机场到肯尼迪国际机场最便宜的非直飞航班,避开高峰时段,并加入购物车”,Tabstack 就会在你不控制的页面上完成导航、点击、填写表单以及多步骤流程。浏览器和大语言模型都在 Tabstack 的基础设施上运行——你只需进行一次 API 调用,就能获得最终结果。它由 Mozilla 构建,使用无障碍树而非截图,并且你的数据是临时的,不会用于训练。
Tabstack 消除了整个浏览器自动化栈。无需安装框架、无需接入模型、也无需托管浏览器。你只需调用 /automate,传入一个自然语言任务和 URL,服务就会处理所有事情——导航、点击、表单填写和结果提取——并在工作过程中流式返回事件。
Tabstack 不会在每次操作时发送全页截图(这会消耗数千个视觉 token),而是读取浏览器的无障碍树。这种紧凑的结构化文本——按钮“搜索”、文本框“电子邮件地址”、链接“定价”——每次操作使用的 token 比基于截图的代理少 60% 到 80%。在大规模场景下,这不仅是微小的优化,而是实实在在的成本差异。
该代理能处理 JavaScript 密集型、动态且需要认证的页面,而这些页面往往让脆弱的脚本束手无策。当遇到它无法处理的情况(如登录表单)时,它会暂停并请求输入,而不是猜测或失败。你可以设置 interactive: true 来按需提供凭证或其他敏感数据,同时防护机制会确保代理只执行你允许的操作。
API 通过 SSE 在代理工作时流式返回任务事件,因此你可以实时查看进度。任务完成后,你会获得一个简洁的最终答案,而不是原始页面数据。交互模式允许你在任务过程中提供表单字段,这对于需要认证的流程非常安全,且不会存储你的凭证。
“Tabstack 读取无障碍树而非截图,因此每次操作的成本远低于基于视觉的代理。”
这是核心架构差异。大多数浏览器自动化代理在每一步都会发送全页截图,每次操作消耗数千个视觉 token。Tabstack 的无障碍树方法将 token 消耗降低了 60% 到 80%,这在大规模场景下直接转化为更低的成本。再加上浏览器和模型完全托管(无需自行托管,无并发上限),这使得高容量自动化首次在经济上变得可行。
需要在不控制的页面上自动化多步骤网页任务——预订、填写表单、从 JavaScript 密集型网站提取数据——并且希望避免搭建浏览器自动化栈的成本和复杂性。如果你正在扩展自动化规模,且基于截图的代理的 token 成本正在吞噬你的预算,那么 Tabstack 尤其值得考虑。此外,如果你需要为需要认证的流程或敏感操作提供人工介入功能,它也是一个很好的选择。
其他您可能感兴趣的工具
Loading comments…
制作者
blueprint_b
访问网站
tabstack.ai/browser-automation
项目信息
产品关键词