Написать универсальный рекурсивный парсер (обход каждой страницы) для сайтов любого объема и протестировать на сайте на 10 млн страниц.
Требования:
- историю и очередь парсинга хранить в БД со статусами страниц, размерами, датами и т.п.
- возможность замены UserAgent
- парсинг на GET запросах, если не проходит - переход на браузерную версию, возможность решать каптчи которые могут иногда возникать
- прокси из TXT файла
- многопоточность
- указание маски директорий и масок файлов которые сохранять / парсить для извлечения ссылок
- сохранение страниц на диске
Работа будет принята после успешного парсинга указанного сайта.
Просьба не писать "да такой парсер за 2 мин пишется и уже есть готовые решения" - все готовые решения протестированы и они не рабочие на больших объемах страниц, есть подводные камни. Поэтому нужна база данных и статусы, блокировки в БД и т.п.
Требования:
- историю и очередь парсинга хранить в БД со статусами страниц, размерами, датами и т.п.
- возможность замены UserAgent
- парсинг на GET запросах, если не проходит - переход на браузерную версию, возможность решать каптчи которые могут иногда возникать
- прокси из TXT файла
- многопоточность
- указание маски директорий и масок файлов которые сохранять / парсить для извлечения ссылок
- сохранение страниц на диске
Работа будет принята после успешного парсинга указанного сайта.
Просьба не писать "да такой парсер за 2 мин пишется и уже есть готовые решения" - все готовые решения протестированы и они не рабочие на больших объемах страниц, есть подводные камни. Поэтому нужна база данных и статусы, блокировки в БД и т.п.