


Describa /automatice una tarea en inglés sencillo y /automate impulsa un navegador real para realizarla: navegar por un sitio, hacer clic en un flujo de varios pasos, rellenar un formulario, llegar a una página que solo se renderiza tras la interacción. El resultado se transmite de vuelta en una sola llamada API. Es una API a la que se llama, no un framework que se instala. Navegador y LLM incluidos, nada que alojar, sin límite de concurrencia. La automatización del árbol de accesibilidad consume entre un 60 y un 80 % menos de tokens que los agentes basados en capturas de pantalla. Creado por Mozilla. Efímero, sin entrenamiento con sus datos.
Tabstack Browser Automation es una API que te permite describir una tarea web en lenguaje natural y que se ejecute en un navegador real. Le entregas una tarea como "Encuentra el vuelo directo más barato de SFO a JFK que evite la hora punta y agrégalo al carrito", y Tabstack navega, hace clic, rellena formularios y completa flujos de varios pasos en páginas que no controlas. Tanto el navegador como el LLM se ejecutan en la infraestructura de Tabstack: solo haces una única llamada a la API y obtienes el resultado final. Está desarrollado por Mozilla, utiliza el árbol de accesibilidad en lugar de capturas de pantalla y mantiene tus datos efímeros sin entrenar con tus entradas.
Tabstack elimina toda la pila de automatización del navegador. No hay framework que instalar, modelo que conectar ni navegador que alojar. Llamas a /automate con una tarea en lenguaje natural y una URL, y el servicio se encarga de todo: navegación, clics, relleno de formularios y extracción de resultados, transmitiendo eventos a medida que trabaja.
En lugar de enviar imágenes de página completa en cada acción (lo que consume miles de tokens de visión), Tabstack lee el árbol de accesibilidad del navegador. Este texto estructurado y compacto —botón "Buscar", cuadro de texto "Dirección de correo electrónico", enlace "Precios"— utiliza entre un 60 y un 80 % menos de tokens por acción que los agentes basados en capturas de pantalla. A gran escala, eso supone una diferencia de coste real, no una optimización menor.
El agente trabaja en páginas dinámicas, con mucho JavaScript y autenticadas, con las que los scripts frágiles fallan. Cuando se encuentra con algo que no tiene —como un formulario de inicio de sesión—, se detiene y pide información en lugar de adivinar o fallar. Puedes configurar interactive: true para proporcionar credenciales u otros datos sensibles bajo demanda, y las barreras de seguridad mantienen al agente dentro de las acciones que permites.
La API transmite eventos de tarea mediante SSE mientras el agente trabaja, para que puedas ver el progreso en tiempo real. Cuando la tarea se completa, obtienes una respuesta final limpia, no datos de página en bruto. El modo interactivo te permite rellenar campos de formulario a mitad de la tarea, lo que lo hace seguro para flujos autenticados sin almacenar nunca tus credenciales.
"Tabstack lee el árbol de accesibilidad en lugar de tomar capturas de pantalla, por lo que cada acción cuesta una fracción de lo que gastan los agentes basados en visión."
Esta es la diferencia arquitectónica principal. La mayoría de los agentes de automatización del navegador envían una captura de pantalla de página completa en cada paso, quemando miles de tokens de visión por acción. El enfoque basado en el árbol de accesibilidad de Tabstack reduce el consumo de tokens entre un 60 y un 80 %, lo que se traduce directamente en costes más bajos a gran escala. Combinado con el hecho de que el navegador y el modelo están completamente gestionados (nada que alojar, sin límite de concurrencia), hace que la automatización de alto volumen sea económicamente viable por primera vez.
Necesitas automatizar tareas web de varios pasos en páginas que no controlas —hacer reservas, rellenar formularios, extraer datos de sitios con mucho JavaScript— y quieres evitar el coste y la complejidad de montar una pila de automatización del navegador. Tabstack es especialmente interesante si estás escalando la automatización y los costes de tokens de los agentes basados en capturas de pantalla se están comiendo tu presupuesto. También es una opción sólida si necesitas supervisión humana para flujos autenticados u operaciones sensibles.
Otras herramientas que podrías considerar
Loading comments…
Creador
blueprint_b
Visitar sitio web
tabstack.ai/browser-automation
Información del proyecto
Palabras clave del producto