Ищу исполнителя: универсальный парсер сайтов любого объема

wtfowned

Client
Регистрация
07.04.2020
Сообщения
40
Благодарностей
11
Баллы
8
Написать универсальный рекурсивный парсер (обход каждой страницы) для сайтов любого объема и протестировать на сайте на 10 млн страниц.


Требования:
- историю и очередь парсинга хранить в БД со статусами страниц, размерами, датами и т.п.
- возможность замены UserAgent
- парсинг на GET запросах, если не проходит - переход на браузерную версию, возможность решать каптчи которые могут иногда возникать
- прокси из TXT файла
- многопоточность
- указание маски директорий и масок файлов которые сохранять / парсить для извлечения ссылок
- сохранение страниц на диске


Работа будет принята после успешного парсинга указанного сайта.

Просьба не писать "да такой парсер за 2 мин пишется и уже есть готовые решения" - все готовые решения протестированы и они не рабочие на больших объемах страниц, есть подводные камни. Поэтому нужна база данных и статусы, блокировки в БД и т.п.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)