Как спарсить прокси с url? прокси находятся в под url'ах

A

Alelsey1611

Guest
Собственно вопрос
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 165
Благодарностей
2 165
Баллы
113
 
A

Alelsey1611

Guest

Nord

Client
Регистрация
22.03.2012
Сообщения
2 372
Благодарностей
1 430
Баллы
113
A

Alelsey1611

Guest
site.ru/34.54.23.158:8890/
или
site.ru/1
а там на странице куча проксей?
Да
Site
Site/123 тут куча прокси + прокси обновляются каждый день парсить надо через прокси чекер
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 165
Благодарностей
2 165
Баллы
113
1. Собрать в "Список1" все такие ссылки со "Страница на сайте".
2. Поочередно взять строку из "Список1" и Get-запросом получить ее содержимое.
3. Собрать регуляркой в "Список2" все прокси из содержания Get-запроса.
4. Вернутся в цикле к пункту №2.
 
  • Спасибо
Реакции: Alelsey1611
A

Alelsey1611

Guest

alekwuy

Client
Регистрация
06.04.2013
Сообщения
1 631
Благодарностей
461
Баллы
83
A

Alelsey1611

Guest

orka13

Client
Регистрация
07.05.2015
Сообщения
2 165
Благодарностей
2 165
Баллы
113
Делаешь шаблон без браузера на Get-запросах. Сначала собираешь ссылки на страницы с проксями, потом делаешь запрос на каждую страницу. В коде ответа ищешь регуляркой прокси, добавляешь в список, удаляешь дубли, сохраняешь в файл.
На быструю руку состряпал такую регулярку:
(?<=\D)\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\:\d{1,6}(?=\D)
 
  • Спасибо
Реакции: Alelsey1611

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)