Парсинг посковиков.

GreenWay

Client
Регистрация
11.05.2012
Сообщения
428
Благодарностей
132
Баллы
43
Парсинг посковиков. Как сниппеты так и урлы. Именно методом GET и POST запросов.
В некоторых поисковиках не видно результатов запроса. Как их достать?
Для примера поисковики:
LUKOL.COM выдача google
http://www.lukol.com/s.php?q=hello+dolly#gsc.tab=0&gsc.q=hello%20dolly

AOL.COM выдача google
http://search.aol.com/aol/search?enabled_terms=&s_it=comsearch&q=hello+dolly&s_chn=prt_aol20-ns

WEBCRAWLER.COM
http://www.webcrawler.com/search/web?q=hello+dolly
 

Severip

Client
Регистрация
17.10.2013
Сообщения
346
Благодарностей
98
Баллы
28
Не только поисковики, но и некоторые сайты тоже ведут себе подобным образом - решения не нашел.
Не переключаться же на браузер, чтоб забрать страничку через DOM.
Подпишусь на тему.
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 707
Баллы
113
GET отдает исходный код страницы, как и POST. При этом никакие скрипты на странице не выполняются. Если те или иные данные выдаются после работы скриптов, то используйте браузер.
 

stas11

Client
Регистрация
31.03.2013
Сообщения
188
Благодарностей
5
Баллы
18
Подскажите, как спарсить выдачу гугла? Конкретно интересует тайтлы и кейворды сайтов с выдачи.
для примера по этой ссылке
https://www.google.com.ua/?gws_rd=ssl#q=купить+планшет

Подаю get-запрос или напрямую через браузер dom, но получаю код без ссылок на выдачу. С яндексом все просто, но интересует конкретно гугл.
 

stas11

Client
Регистрация
31.03.2013
Сообщения
188
Благодарностей
5
Баллы
18
мне нужно собрать все строки с h3, их можно собрать с помощью атрибута outerhtml при get-запросе
Но таких строк получается от 10 до 20 (зависит от рекламы). Мне надо делать на каждую строку отдельный get-запрос или можно как-то попроще это реализовать?
через dom не могу - так как гугл не отдает в коде страницы ссылки на выдачу
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 707
Баллы
113
Код:
http://www.google.com.ua/search?num=100&newwindow=1&site=webhp&source=hp&q=КЛЮЧЕВОЕСЛОВО
 
  • Спасибо
Реакции: Belwin

stas11

Client
Регистрация
31.03.2013
Сообщения
188
Благодарностей
5
Баллы
18
Большое спасибо!
 

Botin

Client
Регистрация
16.02.2014
Сообщения
401
Благодарностей
884
Баллы
93

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 707
Баллы
113
максимум 100 элементов отдает. Остальные только используя номер страницы в запросе. Сравните URL Первой страницы выдачи и второй, найдите отличия, реализуйте счетчик, который будет эти значения менять.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)