Спарсить 40k URLs с 8 сайтов (нужен обход блокировок)

Seoandrii

Client
Регистрация
30.03.2020
Сообщения
29
Благодарностей
6
Баллы
3
Всем привет. Нужно спарсить 40000 url с 8 разных сайтов + сделать парсер.
1.Парсим только <h1>;
2.К-во суммарное url - 40 000;
3.К-во разных сайтов - 8;
4.Сложность - блокировка сайтами обращений к ним (CF или что-то еще используют).
5.Пример URL приведу в комментариях.

Мне нужен как сам парсер для любой версии ZenoPoster, так и уже готовое решение по этим 40к URL.

Пишите цену, договоримся.
 

Seoandrii

Client
Регистрация
30.03.2020
Сообщения
29
Благодарностей
6
Баллы
3
Пример URLs, с которых нужно спарсить h1


Простой SEOFrog не тянет, т.к. блокируются все запросы.
 

bad robot

Client
Регистрация
07.03.2011
Сообщения
178
Благодарностей
28
Баллы
28
остальные 7 сайтов?
 

palman67

Client
Регистрация
06.06.2020
Сообщения
28
Благодарностей
6
Баллы
3
на apollo.io ограничение на кол-во запросов по времени, а так на запросах парсится. либо долго парсить, либо большое кол-во proxy надо
 

Seoandrii

Client
Регистрация
30.03.2020
Сообщения
29
Благодарностей
6
Баллы
3
остальные 7 сайтов?

Пример остальных 7 сайтов. Нужен готовый вариант + сам парсер :-) По поводу проксей, возможно кто-то знает такой сервис и поймет, как его можно прикрутить к сему мероприятию?
 

Seoandrii

Client
Регистрация
30.03.2020
Сообщения
29
Благодарностей
6
Баллы
3
на apollo.io ограничение на кол-во запросов по времени, а так на запросах парсится. либо долго парсить, либо большое кол-во proxy надо
Парсил при помощи SEOFrog с таймингом между URL в 10 сек, кажется. Меня заблочил, SEOFrog получает 429 код, причем сразу, первые 3 URL получили 403, затем дальше все 429.
 

Seoandrii

Client
Регистрация
30.03.2020
Сообщения
29
Благодарностей
6
Баллы
3
Эх, думал кто-то напишет парсер :-) Пойду в онлайн-парсеры за подписку. Если кто знает решение (какие API юзать и тп) - пишите. Слежу за топиком.
 

Seoandrii

Client
Регистрация
30.03.2020
Сообщения
29
Благодарностей
6
Баллы
3
Спарсил частично. Юзаем сервис scrapingbee.com, который дает API. Его API можно юзать в виде url, который можно дописывать "перед" теми URL, которые вы хотите спарсить. Пример:

C#:
https://app.scrapingbee.com/api/v1/?api_key=[B]API_KEY[/B]&url=https://www.apollo.io/companies/Sodal-Strategies/61344a3f43df57000100f085
1.Скорость парсинга медленная. Стоит ее увеличить или в 2 потока юзать - сразу отдаются капчи (почему?)
2.Если еще разгадывать капчи, то решение усложниться и придется писать парсер на ZenoPoster. Да и дополнительно денег тратить придется.
3.Zoominfo так и не спарсило :-) как не крутись, отдает код 0 или 500 именно для zoominfo.
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)