Помогите: Парсинг телефонов с сайта OLX

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Да.
Пробовал и заголовки и содержимое и вместе, и только содержимое.
Результат тотже.
 

Mikhail B.

Moderator
Регистрация
23.12.2014
Сообщения
14 327
Благодарностей
5 430
Баллы
113
Да.
Пробовал и заголовки и содержимое и вместе, и только содержимое.
Результат тотже.
1 Делом посмотри запрос, есть ли в нем номер. Если есть, то покажи настройки экшена который парсит номер.
 

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Номер в снифере есть.
Вот скрин по настройкам
 

Вложения

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Вот как в снифере виден ответ при парсинге в ПрожектМакере
 

Вложения

Mikhail B.

Moderator
Регистрация
23.12.2014
Сообщения
14 327
Благодарностей
5 430
Баллы
113

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Есть в GET запросе {-Variable.get_url_pagegsm-} следующий ответ. Там и телефон в value
А в переменной {-Variable.skrap_gsm-} НЕТ ничего.
Код:
HTTP/1.1 200 OK
Content-Security-Policy: default-src * 'unsafe-eval' 'unsafe-inline' data:; frame-ancestors 'self' app.optimizely.com apps.facebook.com fonts.googleapis.com
X-Xss-Protection: 1
X-Content-Type-Options: nosniff
Referrer-Policy: unsafe-url
Strict-Transport-Security: max-age=31536000; includeSubDomains
X-B: tablica-dc4-267
X-T: D=35395 t=1514887534655556
Content-Type: application/json; charset=utf-8
Expires: Tue, 02 Jan 2018 10:05:34 GMT
Cache-Control: max-age=0, no-cache, no-store
Pragma: no-cache
Date: Tue, 02 Jan 2018 10:05:34 GMT
Connection: keep-alive
Content-Length: 26


{"value":"380 979 175639"}
 

Вложения

Mikhail B.

Moderator
Регистрация
23.12.2014
Сообщения
14 327
Благодарностей
5 430
Баллы
113
По этому не парсит регулярка. там пусто, парсить нечего. Я к этому и вел) Значит теперь надо понять, почему там пусто. Может не указаны юзер агенты, а может надо пост запрос отправить а не гет.

У тебя перменная {-Variable.get_url_pagegsm-}, стоит в поле для урл. А в ней у тебя ответ от другого гет запроса, а должна быть ссылка. Перепроверь все переменные еще раз.
 
Последнее редактирование:

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Вам в помощь пост 22 и 23
yriy158 парсил GET запросом. На выходе {"value":"000 000 000"}
Посоветовали смотреть в сторону печенек.
У меня с GET запроса ответ сервака отдаёт {"value":"380 979 175639"} Т.е. телефон есть. Но регулярка его почему-то не видит.
Хотя в конструкторе регулярных выражений, свободно парсится.
 

Mikhail B.

Moderator
Регистрация
23.12.2014
Сообщения
14 327
Благодарностей
5 430
Баллы
113
Вам в помощь пост 22 и 23
yriy158 парсил GET запросом. На выходе {"value":"000 000 000"}
Посоветовали смотреть в сторону печенек.
У меня с GET запроса ответ сервака отдаёт {"value":"380 979 175639"} Т.е. телефон есть. Но регулярка его почему-то не видит.
Хотя в конструкторе регулярных выражений, свободно парсится.
Либо я дико туплю либо ты)))

Вот давай рассуждать логически. Регулярка не парсит. Смотрим переменную. Там ПУСТО! почечему там пусто, смотрим гет запрос, что там может быть? содержимое стоит, ок. значит порверяем переменную гет урл., смотрим, а там запрос, не урл а ЗАПРОС, а должен быть урл. Все! =) зачем мне эти посты, я по скринам все увидел.
 
  • Спасибо
Реакции: devas111

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Помогите, сам не врублюсь, плиз.
Приартачил файлики.
Что я не так делаю, и почему не парсит регулярку с GET?
Кому не лень посмотрите, пожалуйста.
 

Вложения

  • Спасибо
Реакции: Masik

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Хм.
Спасибо за помощь Mikhail B.
Разобрался. Просто парил регуляркой следующий запрос.
Не актуально.
 

Gor

Client
Регистрация
30.09.2016
Сообщения
248
Благодарностей
30
Баллы
28
Приветствую, ребята!
С недавнего времени на olx.ua перестала работать схема сбора номеров на запросах:
После отправки второго запроса olx говорит, что мы в бане.
Кто разбирался уже?
Во втором запросе отправляются куки вида:
Код:
// Куки из 1 запроса
PHPSESSID=5ac199595eda9d8dd2c29edb83a0baad833471e6; mobile_default=desktop; dfp_segment_test_v3=62; dfp_segment_test=58; dfp_segment_test_v4=13; lister_lifecycle=1548501981; pt=d98c3fcaa5512b16c5698b78999778127acf58b4e367f087da5bca9f7cda28c6fcb04bd34bf67758915f37b09541bd5f753bcf2f8efed4c63387cabb19d5959d; ak_bmsc=2D9B5AEDADA8327EF0B608A5C9C8AD85601194DDC10A0000DD434C5CFE0B7567~plexTyFZtGkY/OAGPiufAcpLZapm+t0waS/2lGcHbB8sxeLbIfPWW1dgL3rveyjOPpEu9IrZOr6neiIvB9x8vcJxNOotthP1NjUWmFUbDcBze5+FoRNxuN5AdQJUUkY/HYCiHwUZQ2/xL+GF9JAIzKebYzm29tJIEGz9duQFgZtdGzUXL0PddTp5Z5dCxH9JMivZIXVMKja0Mzx0JLgsa0LPqa/JQevs/uwrlViBzJqHL3k5HJTmi9ik9YP/sCL3Mu; _abck=23A16F9A0F9ECCC60967D46A6AA51A58601194DDC10A0000DD434C5CD1505C5B~0~rdHvu2SqzynQZ8ldXlmB8tx9Kt85cExefbBMK4uH0E8=~-1~-1; bm_sz=893CC98935965BFC09A973FA0DFD5ACB~QAAQ3ZQRYBeCc/tmAQAA5BnpiWhZg7QToGF764Nu5dSavaFgV8HeWrZzL1YILsoX5VZf9Xp6jh7GOL8fTpwmLd7L+8MdO1KayRUGwAAtnX/Z+Fb5kfh6nT0XIerRkcp182N0WWpIps3UQH6OTKYgTRBz8MI3EJdA/gSUBpdKI9tYdrPN122Azc0GZJ+b9E8=;

// Дополнительные куки:
used_adblock=adblock_disabled; onap=16889e8fc7cx17d95f1e-1-16889e8fc7cx17d95f1e-6-1548504199; ldTd=true; fingerprint=fbdc4f53959cdb4ab268bb0cf23e7b2c189a8b53cad0d297edcd2c514f5a58bbbbd1038ed17ec0aeedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbe20e07d1501e53fa21c0ce59d9de41874de55969cc542da0e22fb9c2db7c54b2edcd2c514f5a58bb730ba2168033a7f4c2eea1e141cd8039b16a1da8531d1945850d3fa1ff34a1ab42ce39ce248a761975196cd41901cc52525fa71314aa02ef101815e2ab761857cadd2994d60616b1854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb99424db0dded4c09; dfp_user_id=64590c6b-2796-cd8e-eea2-8396042ebe87-ver2; _ga=GA1.2.1297485168.1548501978; _gid=GA1.2.720377840.1548501978; lqstatus=1548503178|||; laquesis=; laquesis_ff=; optimizelyEndUserId=oeu1548501980205r0.8879824182217749; __utma=250720985.1297485168.1548501978.1548501980.1548501980.1; __utmb=250720985.3.8.1548502399548; __utmc=250720985; __utmz=250720985.1548501980.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmt=1; _gat_clientNinja=1
Можно сразу сказать, что добавляется в куках определение fingerprint'a. А вот откуда он берется?..
 
Последнее редактирование:

luzani

Client
Регистрация
29.03.2015
Сообщения
117
Благодарностей
125
Баллы
43
Приветствую, ребята!
С недавнего времени на olx.ua перестала работать схема сбора номеров на запросах:
После отправки второго запроса olx говорит, что мы в бане.
Кто разбирался уже?
Во втором запросе отправляются куки вида:
Код:
// Куки из 1 запроса
PHPSESSID=5ac199595eda9d8dd2c29edb83a0baad833471e6; mobile_default=desktop; dfp_segment_test_v3=62; dfp_segment_test=58; dfp_segment_test_v4=13; lister_lifecycle=1548501981; pt=d98c3fcaa5512b16c5698b78999778127acf58b4e367f087da5bca9f7cda28c6fcb04bd34bf67758915f37b09541bd5f753bcf2f8efed4c63387cabb19d5959d; ak_bmsc=2D9B5AEDADA8327EF0B608A5C9C8AD85601194DDC10A0000DD434C5CFE0B7567~plexTyFZtGkY/OAGPiufAcpLZapm+t0waS/2lGcHbB8sxeLbIfPWW1dgL3rveyjOPpEu9IrZOr6neiIvB9x8vcJxNOotthP1NjUWmFUbDcBze5+FoRNxuN5AdQJUUkY/HYCiHwUZQ2/xL+GF9JAIzKebYzm29tJIEGz9duQFgZtdGzUXL0PddTp5Z5dCxH9JMivZIXVMKja0Mzx0JLgsa0LPqa/JQevs/uwrlViBzJqHL3k5HJTmi9ik9YP/sCL3Mu; _abck=23A16F9A0F9ECCC60967D46A6AA51A58601194DDC10A0000DD434C5CD1505C5B~0~rdHvu2SqzynQZ8ldXlmB8tx9Kt85cExefbBMK4uH0E8=~-1~-1; bm_sz=893CC98935965BFC09A973FA0DFD5ACB~QAAQ3ZQRYBeCc/tmAQAA5BnpiWhZg7QToGF764Nu5dSavaFgV8HeWrZzL1YILsoX5VZf9Xp6jh7GOL8fTpwmLd7L+8MdO1KayRUGwAAtnX/Z+Fb5kfh6nT0XIerRkcp182N0WWpIps3UQH6OTKYgTRBz8MI3EJdA/gSUBpdKI9tYdrPN122Azc0GZJ+b9E8=;

// Дополнительные куки:
used_adblock=adblock_disabled; onap=16889e8fc7cx17d95f1e-1-16889e8fc7cx17d95f1e-6-1548504199; ldTd=true; fingerprint=fbdc4f53959cdb4ab268bb0cf23e7b2c189a8b53cad0d297edcd2c514f5a58bbbbd1038ed17ec0aeedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbe20e07d1501e53fa21c0ce59d9de41874de55969cc542da0e22fb9c2db7c54b2edcd2c514f5a58bb730ba2168033a7f4c2eea1e141cd8039b16a1da8531d1945850d3fa1ff34a1ab42ce39ce248a761975196cd41901cc52525fa71314aa02ef101815e2ab761857cadd2994d60616b1854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb99424db0dded4c09; dfp_user_id=64590c6b-2796-cd8e-eea2-8396042ebe87-ver2; _ga=GA1.2.1297485168.1548501978; _gid=GA1.2.720377840.1548501978; lqstatus=1548503178|||; laquesis=; laquesis_ff=; optimizelyEndUserId=oeu1548501980205r0.8879824182217749; __utma=250720985.1297485168.1548501978.1548501980.1548501980.1; __utmb=250720985.3.8.1548502399548; __utmc=250720985; __utmz=250720985.1548501980.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmt=1; _gat_clientNinja=1
Можно сразу сказать, что добавляется в куках определение fingerprint'a. А вот откуда он берется?..
Нашел решение?
 

Gor

Client
Регистрация
30.09.2016
Сообщения
248
Благодарностей
30
Баллы
28

yriy158

Client
Регистрация
10.08.2013
Сообщения
491
Благодарностей
301
Баллы
63
Вся загвоздка в параметре sensor_data, который POST запросом отправляется, а в ответ приходит уникальная кука _abck , без котрой получить телефон невозможно.
А параметры sensor_data непонятно откуда берутся.
 

Vangardo

Новичок
Регистрация
19.08.2018
Сообщения
20
Благодарностей
3
Баллы
3
Скажите, а проблему с паснигом номеров так никто и не решил? :bw:
 

Gor

Client
Регистрация
30.09.2016
Сообщения
248
Благодарностей
30
Баллы
28
Пока только парсер-гибрид сделал. Основная инфа собирается запросом, номер телефона браузером. В принципе, если не нужны номера, можно на запросы чисто перейти. Конечно, актуально только для парсинга товаров на витрины магазинов.
А так с парсингом номеров засада
 
  • Спасибо
Реакции: Vangardo

Vangardo

Новичок
Регистрация
19.08.2018
Сообщения
20
Благодарностей
3
Баллы
3
Пока только парсер-гибрид сделал. Основная инфа собирается запросом, номер телефона браузером. В принципе, если не нужны номера, можно на запросы чисто перейти. Конечно, актуально только для парсинга товаров на витрины магазинов.
А так с парсингом номеров засада
Ясно. А я как только не пробовал все в пустую. Помню как то пол года год назад все ок было. А сейчас приходят нули(((((
 

Vangardo

Новичок
Регистрация
19.08.2018
Сообщения
20
Благодарностей
3
Баллы
3
Так и не появилось шустрого парня сумевшего достать номер телефона с сервера?
 

Roman*

Client
Регистрация
25.09.2013
Сообщения
1 651
Благодарностей
654
Баллы
113
Стало понятно, что если в _abck есть ~0~ то можно парсить номер, если -1 то в ответе гет запроса, что подозрительная активность. Кто то разобрался как генерить _abck ? Его хватает номеров на 5 и потом блок ип и нужно перезагружать проект, чтоб взять новые данные.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)