Парсер информации с онлайн базы недвижимости cian.ru

Discussion in 'Третий конкурс шаблонов' started by kruasang, Mar 2, 2019.

  1. kruasang

    kruasang Client

    Joined:
    Feb 24, 2019
    Messages:
    5
    Likes Received:
    10
    Всем привет. Я решил поделиться с вами шаблоном парсером информации с объявлений, размещённых в онлайн базе недвижимости cian.ru. Шабон работает на post/get запросах, без использования браузера.

    К сожалению, шаблон не работает для Москвы. Для всех остальных городов исправно работает.

    upload_2019-3-2_13-1-27.png

    Шаблон работает в двух режимах:
    1. Сбор ссылок на объявления в указанном городе.
    2. Сбор информации с полученных объявлений.
    Использование прокси:

    Циан любит блокировать IP, с которых идут частые запросы. Блок может быть временным - нужно разгадать ReCaptcha 2, либо постоянным - IP заносится в чёрным список и разблокировать его можно только после обращения в тех поддержку, или он автоматически становится "рабочим" через определённое время. Поэтому, я рекомендую использовать мобильные прокси. Прокси необходимо поместить в файл proxy.txt

    В шаблоне обход блокировки и капчи реализован таким образом, что, если появляется капча или блокируется IP, шаблон просто меняет IP адрес и продолжает свою работу.

    Какие данные собирает шаблон:

    Все собранные в результате работы шаблона данные, будут помещены в файл cian_rezult.xlsx. Парсер собирает следующие данные:
    • Категория
    • Подкатегория
    • Название объявления
    • Ссылка на объявление
    • Дата публикации
    • Номер телефона
    • Текст объявления
    • Цена
    • Количество просмотров
    • Тип объявления

    Окно входящих настроек:

    upload_2019-3-2_13-9-56.png

    Пояснения входящих настроек:

    Выберите режим работы - содержит два варианта работы: 1) Сбор ссылок и 2) Сбор информации. Сначала следует запустить режим "Сбор ссылок", а после его завершения "Сбор информации".
    Укажите город (латинскими буквами) - здесь следует указать город, объявления по которому вы хотите собрать. Город следует указывать латинскими буквами. Чтобы не ошибиться в корректном указании города, рекомендую зайти на сам сайт cian.ru и выбрать интересующий вас город. В результате вы попадёте на домен третьего уровня, например, novosibirsk.cian.ru. Копируете novosibirsk и вставляете в поле "Укажите город (латинскими буквами)".
    Максимальная стоимость квартиры (вторички) - укажите максимальную стоимость квартиры во вторичке, до которой следует собрать объявления.
    Максимальная стоимость квартиры (в новостройке) - укажите максимальную стоимость квартиры в новостройке, до которой следует собрать объявления.
    Максимальная стоимость комнаты - укажите максимальную стоимость комнаты, до которой следует собрать объявления.
    Максимальная стоимость дома - укажите максимальную стоимость дома, до которой следует собрать объявления.
    Максимальная стоимость участка - укажите максимальную стоимость участка, до которой следует собрать объявления.

    Алгоритм работы шаблона в режиме "Сбор ссылок":

    Важно: данный режим работает только в 1 поток.

    Шаблон поэтапно собирает ссылки на все объявления в каждой из пяти категорий в следующем порядке:
    1. Квартиры во вторичке
    2. Квартиры в новостройке
    3. Комнаты
    4. Дома
    5. Участки
    Поскольку cian.ru не отображает больше 700 объявлений за раз (не на одной странице, а в сумме с нескольких страниц), то шаблон начинает собирать объявления шаг за шагом изменяя диапазон цен. Например, при сборе ссылок на объявления о продаже квартир в новостройке, шаблон сначала будет собирать объявления в диапазоне цен с 0 до 300 000, затем с 300 000 до 600 000, затем с 600 000 до 900 000 и так далее, пока диапазон не достигнет максимальной стоимости объекта недвижимости, указанной во входящих настройках.

    Для каждой категории установлены свои шаги:
    1. Квартиры во вторичке - 150 000
    2. Квартиры в новостройке - 300 000
    3. Комнаты - 300 000
    4. Дома - 5 000 000
    5. Участки - 500 000
    Размер шагов можно установить самостоятельно, изменив число в трёх кубиках в соответствующей категории:

    upload_2019-3-2_12-25-34.png
    Во всех трёх кубиках нужно установить одно и тоже число. Например, если вы пропишите в них 1 000 000, то шаблон будет брать следующий диапазон: 0 - 1 000 000, затем 1 000 000 - 2 000 000, затем 2 000 000 - 3 000 000 и так далее.

    Чем больше диапазон, тем быстрее будет идти сбор ссылок на объявления, однако, есть риск не собрать все ссылки на объявления (помните про максимальное число отображаемых объявлений в 700 шт.).

    После сбора ссылок в каждой из категорий, в логах вы будете видеть число собранных объявлений, а по завершению работы шаблона - общее количество собранных объявлений.

    Алгоритм работы шаблона в режиме "Сбор информации":

    После того, как шаблон отработает в режиме "Сбор ссылок", вам следует зайти во входящие настройки и запустить работу шаблона в режиме "Сбор информации". В этом режиме шаблон собирает всю доступную информацию с объявлений: категория, подкатегория, название объявления, ссылка на объявление, дата публикации, номер телефона, текст объявления, цена, количество просмотров, тип объявления.

    Важно: режим "Сбор информации" работает на post/get запросах и может быть запущен в многопотоке.

    По завершению работы шаблона в режиме "Сбор информации", в файле cian_rezult.xlsx (лежит в папке Результат) вы найдёте всю собранную информацию.

    upload_2019-3-2_12-50-41.png


    Как монетизировать данный шаблон, я думаю, вы догадались. Если шаблон был вам полезен или понравилась его реализация - голосуйте, жамкайте кнопку спасибо
     

    Attached Files:

  2. theinova

    theinova Client

    Joined:
    Sep 7, 2016
    Messages:
    18
    Likes Received:
    9
    нет не догадались.
    подскажите как?
     
    Gfoblin and kagorec like this.
  3. fri-lancer

    fri-lancer Client

    Joined:
    Oct 1, 2013
    Messages:
    263
    Likes Received:
    66
    какой нибудь спам по телефону, наверное
     
  4. alar1

    alar1 Client

    Joined:
    Aug 20, 2014
    Messages:
    15
    Likes Received:
    1
    а почему по москве не работает?
     
  5. sergboss

    sergboss Client

    Joined:
    Sep 19, 2016
    Messages:
    31
    Likes Received:
    2
    Мне тоже интересно почему по москве не работает?
     
  6. 6ячф9ь

    6ячф9ь Client

    Joined:
    Jan 10, 2018
    Messages:
    35
    Likes Received:
    5
    автор не хочет создавать себе конкуренцию
     
  7. Zoolone

    Zoolone Новичок

    Joined:
    Jun 5, 2019
    Messages:
    24
    Likes Received:
    9
    Годнота. Пол ляма можно за недельку поднять думаю
     

Пользователи просматривающие тему (Пользователей: 0, Гостей: 0)