Парсер информации с онлайн базы недвижимости cian.ru

kruasang

Client
Регистрация
24.02.2019
Сообщения
7
Благодарностей
11
Баллы
3
Всем привет. Я решил поделиться с вами шаблоном парсером информации с объявлений, размещённых в онлайн базе недвижимости cian.ru. Шабон работает на post/get запросах, без использования браузера.

К сожалению, шаблон не работает для Москвы. Для всех остальных городов исправно работает.

upload_2019-3-2_13-1-27.png

Шаблон работает в двух режимах:
  1. Сбор ссылок на объявления в указанном городе.
  2. Сбор информации с полученных объявлений.
Использование прокси:

Циан любит блокировать IP, с которых идут частые запросы. Блок может быть временным - нужно разгадать ReCaptcha 2, либо постоянным - IP заносится в чёрным список и разблокировать его можно только после обращения в тех поддержку, или он автоматически становится "рабочим" через определённое время. Поэтому, я рекомендую использовать мобильные прокси. Прокси необходимо поместить в файл proxy.txt

В шаблоне обход блокировки и капчи реализован таким образом, что, если появляется капча или блокируется IP, шаблон просто меняет IP адрес и продолжает свою работу.

Какие данные собирает шаблон:

Все собранные в результате работы шаблона данные, будут помещены в файл cian_rezult.xlsx. Парсер собирает следующие данные:
  • Категория
  • Подкатегория
  • Название объявления
  • Ссылка на объявление
  • Дата публикации
  • Номер телефона
  • Текст объявления
  • Цена
  • Количество просмотров
  • Тип объявления

Окно входящих настроек:

upload_2019-3-2_13-9-56.png

Пояснения входящих настроек:

Выберите режим работы - содержит два варианта работы: 1) Сбор ссылок и 2) Сбор информации. Сначала следует запустить режим "Сбор ссылок", а после его завершения "Сбор информации".
Укажите город (латинскими буквами) - здесь следует указать город, объявления по которому вы хотите собрать. Город следует указывать латинскими буквами. Чтобы не ошибиться в корректном указании города, рекомендую зайти на сам сайт cian.ru и выбрать интересующий вас город. В результате вы попадёте на домен третьего уровня, например, novosibirsk.cian.ru. Копируете novosibirsk и вставляете в поле "Укажите город (латинскими буквами)".
Максимальная стоимость квартиры (вторички) - укажите максимальную стоимость квартиры во вторичке, до которой следует собрать объявления.
Максимальная стоимость квартиры (в новостройке) - укажите максимальную стоимость квартиры в новостройке, до которой следует собрать объявления.
Максимальная стоимость комнаты - укажите максимальную стоимость комнаты, до которой следует собрать объявления.
Максимальная стоимость дома - укажите максимальную стоимость дома, до которой следует собрать объявления.
Максимальная стоимость участка - укажите максимальную стоимость участка, до которой следует собрать объявления.

Алгоритм работы шаблона в режиме "Сбор ссылок":

Важно: данный режим работает только в 1 поток.

Шаблон поэтапно собирает ссылки на все объявления в каждой из пяти категорий в следующем порядке:
  1. Квартиры во вторичке
  2. Квартиры в новостройке
  3. Комнаты
  4. Дома
  5. Участки
Поскольку cian.ru не отображает больше 700 объявлений за раз (не на одной странице, а в сумме с нескольких страниц), то шаблон начинает собирать объявления шаг за шагом изменяя диапазон цен. Например, при сборе ссылок на объявления о продаже квартир в новостройке, шаблон сначала будет собирать объявления в диапазоне цен с 0 до 300 000, затем с 300 000 до 600 000, затем с 600 000 до 900 000 и так далее, пока диапазон не достигнет максимальной стоимости объекта недвижимости, указанной во входящих настройках.

Для каждой категории установлены свои шаги:
  1. Квартиры во вторичке - 150 000
  2. Квартиры в новостройке - 300 000
  3. Комнаты - 300 000
  4. Дома - 5 000 000
  5. Участки - 500 000
Размер шагов можно установить самостоятельно, изменив число в трёх кубиках в соответствующей категории:

upload_2019-3-2_12-25-34.png

Во всех трёх кубиках нужно установить одно и тоже число. Например, если вы пропишите в них 1 000 000, то шаблон будет брать следующий диапазон: 0 - 1 000 000, затем 1 000 000 - 2 000 000, затем 2 000 000 - 3 000 000 и так далее.

Чем больше диапазон, тем быстрее будет идти сбор ссылок на объявления, однако, есть риск не собрать все ссылки на объявления (помните про максимальное число отображаемых объявлений в 700 шт.).

После сбора ссылок в каждой из категорий, в логах вы будете видеть число собранных объявлений, а по завершению работы шаблона - общее количество собранных объявлений.

Алгоритм работы шаблона в режиме "Сбор информации":

После того, как шаблон отработает в режиме "Сбор ссылок", вам следует зайти во входящие настройки и запустить работу шаблона в режиме "Сбор информации". В этом режиме шаблон собирает всю доступную информацию с объявлений: категория, подкатегория, название объявления, ссылка на объявление, дата публикации, номер телефона, текст объявления, цена, количество просмотров, тип объявления.

Важно: режим "Сбор информации" работает на post/get запросах и может быть запущен в многопотоке.

По завершению работы шаблона в режиме "Сбор информации", в файле cian_rezult.xlsx (лежит в папке Результат) вы найдёте всю собранную информацию.

upload_2019-3-2_12-50-41.png


Как монетизировать данный шаблон, я думаю, вы догадались. Если шаблон был вам полезен или понравилась его реализация - голосуйте, жамкайте кнопку спасибо
 

Вложения

theinova

Client
Регистрация
07.09.2016
Сообщения
19
Благодарностей
9
Баллы
3
нет не догадались.
подскажите как?
 
  • Спасибо
Реакции: Gfoblin и kagorec

alar1

Client
Регистрация
20.08.2014
Сообщения
15
Благодарностей
1
Баллы
3
а почему по москве не работает?
 

sergboss

Client
Регистрация
19.09.2016
Сообщения
31
Благодарностей
2
Баллы
8
Мне тоже интересно почему по москве не работает?
 

Zoolone

Banned
Регистрация
05.06.2019
Сообщения
143
Благодарностей
140
Баллы
43
Годнота. Пол ляма можно за недельку поднять думаю
 

dctuel

Client
Регистрация
08.09.2019
Сообщения
4
Благодарностей
0
Баллы
1
У меня ошибку на 2 действии показывает.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)