Парсер номеров и имён с Юлы с последующей разбивкой по операторам {Get/Post}

DrunkDeath

Client
Регистрация
24.12.2014
Сообщения
293
Благодарностей
203
Баллы
43



Доброго времени суток. Представляю Вам парсер номеров и имён продавцов с сайта youla.ru. Шаблон написан на Post/Get запросах. Имеет функцию рассортировать полученные номера по операторам.




Входные настройки шаблона:


Ссылка из поиска - сюда вставляете ссылку из поиска товаров с выбранными критериями (или нет) на Юле.
Сколько страниц парсить - кол-во станиц, которые шаблон будет парсить.
Сохранять - вид сохранённых данных. "Телефон" или "телефон;имя".
Сортировать по оператору - в конце работы шаблон создаст папку и рассортирует все номера по операторам.



Алгоритм работы шаблона:
Шаблон берёт заданную ссылку из входных настроек и делает два гет запроса по ней:

Далее меняет кодировку (ибо зачастую Юла даёт ответ в кодировке Unicode), парсит этот Get запрос Regex'ом на ссылки и удаляет дубли.
Примечание: Почему два гет запроса, а не один. Проблема в том, что в конце ссылки прописывается номер страницы "page=". Но когда парсинг идёт без критериев, то оператор page нужно прописывать как "?page=", а если с критериями, то "&page=".



Далее вытаскивает из полученных результатов ссылки на товары и перекладывает из Временного списка в список Links.
Делаем ещё один Get запрос по ссылке из поиска, чтобы получить Title. Он нам понадобится при дальнейшем создании текстовых файлов и папок.

Теперь шаблон берёт ссылку на товар из списка Links, удаляет дубли, делает Get запрос и парсит номер телефона и имя. Имя получаем в кодировке Unicode, поэтому шаблон ещё раз перекодирует и записывает в файл (создаётся с именем из Title) по заданным параметрам.
И последний этап. Создаёт папку (с именем Title). Берёт номер из нашего созданного списка и делает пост запрос на сайт kody.su. Получает ответ и парсит оттуда оператора и записывает в файл.

На выходе получаем Файл с номерами и именами (или без) и папку с этими же номерами разбитыми по операторам.




Шаблон сам создаёт все файлы в той папке, где находится. Надеюсь шаблон подойдёт новичкам, которые на первых этапах изучения Get/Post, а также тем, кому нужно спарсить базу номеров с юлы для своих целей. Данный шаблон не парсит категорию Авто, так как там другой алгоритм парсинга.


Спасибо за внимание. Надеюсь этот шаблон Вам пригодится.
 

Вложения

Для запуска проектов требуется программа ZennoPoster.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте программу ZennoPoster. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

SergeyH

Client
Регистрация
31.01.2018
Сообщения
7
Благодарностей
0
Баллы
1
Парсит только 1 страницу, если ставишь больше 1 спарсить, не работает.
 

DrunkDeath

Client
Регистрация
24.12.2014
Сообщения
293
Благодарностей
203
Баллы
43
Парсит только 1 страницу, если ставишь больше 1 спарсить, не работает.
Не работает, пишет шаблон выполнен успешно но ни папок ни чего нет!
Разобрался. Глупая мелкая ошибка была в несоединённом кубике. Всё исправил и проверил парсинг больше чем на одну страницу. Всё работает. Шаблон прикрепляю к сообщению.
 

Вложения

  • Спасибо
Реакции: fotuvaz

fotuvaz

Новичок
Регистрация
26.09.2018
Сообщения
1
Благодарностей
0
Баллы
1
Нужны прокси?
ТС спасибо за шаб
 

DrunkDeath

Client
Регистрация
24.12.2014
Сообщения
293
Благодарностей
203
Баллы
43

LuckyGenius

Новичок
Регистрация
17.12.2018
Сообщения
1
Благодарностей
0
Баллы
1
Есть ли возможность поменять на OLX?
 

Roman*

Client
Регистрация
25.09.2013
Сообщения
1 488
Благодарностей
533
Баллы
113
Проверил чек на kody.su, есть лимит запросов с IP.
 

DrunkDeath

Client
Регистрация
24.12.2014
Сообщения
293
Благодарностей
203
Баллы
43

Agent

Client
Регистрация
25.12.2018
Сообщения
80
Благодарностей
37
Баллы
18
Как узнать, сколько страниц с объявлениями по моему запросу (рубрике)?
И получится ли, когда время будет, дополнить опционально сбор заголовков?
Потому что через n-количество объявлений юла начинает выдавать не релевантные запросу.
 
Последнее редактирование:

DrunkDeath

Client
Регистрация
24.12.2014
Сообщения
293
Благодарностей
203
Баллы
43
Как узнать, сколько страниц с объявлениями по моему запросу (рубрике)?
И получится ли, когда время будет, дополнить опционально сбор заголовков?
Потому что через n-количество объявлений юла начинает выдавать не релевантные запросу.
Во входных устанавливается лимит, если кончатся страницы, то шаблон закончит работу.
Да, это возможно всё в таблицу перекинуть
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)