Инструмент AI, заменивший команду веб-исследователей
«Примечательно, что данные были впечатляющей чистоты для набора данных такого размера... Файлы были сразу используемы и легко проверяемы. Большое спасибо вам и
Дата

«Примечательно, что данные были впечатляющей чистоты для набора данных такого размера... Файлы были сразу используемы и легко проверяемы. Спасибо за сильную работу и тщательный контроль качества» - Скотт Клут, основатель и генеральный директор.
Проблема
Coupon Cabin нужны чистые данные о торговцах: политики, социальные сети, сроки доставки, правила отмены. Веб-сайты торговцев все разные. Раньше это делала внутренняя команда вручную.
Сложность: каждый раунд сбора занимает две недели, потом нужно сразу начинать следующий. Бесконечный цикл. По мере роста магазинов нанимать больше людей нереалистично — рабочая нагрузка растёт быстрее, чем команда.
Нужна была автоматизация.
Решение
Мы создали систему на базе AI, которая:
- Автоматически заходит на сайты торговцев через браузер
- Находит нужную информацию (политики, контакты, социальные сети)
- Проверяет источники — каждый факт привязан к конкретному месту на сайте
- Возвращает данные в JSON — готово для любых систем
3 режима работы:
- Быстрый и дешёвый (быстро, но немного меньше точности)
- Сбалансированный (хороший компромисс)
- Премиум (медленнее, но максимум точности)
Главные вызовы и как мы их решили
1. AI дорогая и медленная
- Каждый шаг требовал скриншотов и огромные контексты
- Решение: Интегрировали Google Grounding (быстрее и дешевле) + оптимизация промптов. Сэкономили много денег на LLM.
2. Браузер сложно управлять
- Десятки браузеров работают параллельно, нужна оркестровка
- Решение: Python оркестратор с пулами рабочих, управлением профилей и автоматическими перезагрузками.
3. Сайты блокируют ботов
- Cloudflare, hCaptcha, reCAPTCHA повсюду
- Решение: Автоматический детектор капчи + 2Captcha сервис, ротация прокси, логика перепопытки.
4. Данные нужны в JSON
- Google Grounding возвращает Markdown, а не JSON
- Решение: Два этапа преобразования — сначала Markdown с цитатами, потом конвертим в JSON.
5. Стабильность
- Много агентов, много шагов, легко что-то сломать
- Решение: Детальное логирование, статусы задач и повторные попытки на каждом уровне.
Результаты
✓ Автоматизация в масштабе — сложный многоэтапный процесс теперь полностью автоматический
✓ Команда освобождена — вместо ручного сбора данных люди могут делать более ценную работу
✓ Высокая точность — каждый факт проверен и привязан к источнику
✓ Масштабируемость — система управляет десятками параллельных браузеров без потери производительности
✓ Гибкость — можем выбирать между скоростью, стоимостью и качеством
«Спасибо за всю работу. Мы видим большие перспективы в этом решении и воодушевлены переносом данных в production» - Скотт Клут, основатель и генеральный директор.
Результат: система, которая делает работу целой команды веб-исследователей, но автоматически и с идеальной точностью. Масштабируемость без боли.


