[ РЕШЕНО ] Парсер выдачи Google без браузера

BAZAg

Client
Регистрация
08.11.2015
Сообщения
1 758
Благодарностей
2 392
Баллы
113
Здравствуйте, разработчики!
Есть задача получать результаты выдачи с Google.
66740


Необходимо разобраться как собирать данные без браузера на POST/GET.
Не использовать аккаунты гугл, без распознавания каптчи, мобильных/индивидуальных проксей, без API google и других сервисов.

Интересует цена вопроса за открытый шаблон (вдруг у кого-то уже готовый есть).
Если кто-то сможет собрать такое решение - интересует время + цена.

Есть желающие решить эту задачу?
 

Phoenix78

Client
Read only
Регистрация
06.11.2018
Сообщения
11 790
Благодарностей
5 683
Баллы
113
как это без капчи и без прокси ? гугл еще никто не нагнул, только он всем диктует свои условия :-)
 

BAZAg

Client
Регистрация
08.11.2015
Сообщения
1 758
Благодарностей
2 392
Баллы
113
как это без капчи и без прокси ? гугл еще никто не нагнул, только он всем диктует свои условия :-)
Тут нужно проявить смекалку, дать свободу своему творческому потенциалу :-)
Без мобильных/индивидуальных проксей - нужен человек, который подберет грамотно запросы, подставит нужные куки по цепочке чтобы запрос прошел (а с нормальными прокси - "тонкие" познания не требуются). Хотя, не запрещается использовать публичные прокси, VPN-ы, tor (хотя, если человек не собирал запросы к гуглу - то это ему мало чем поможет).
Без каптчи - легко - если встретил каптчу - завершаем работу (другой поток делает 2-3 запроса на нужные левые странички, получив необходимые куки-параметры - и работа/попытка повторяется).
 
  • Спасибо
Реакции: Roman*

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
741
Баллы
113

BAZAg

Client
Регистрация
08.11.2015
Сообщения
1 758
Благодарностей
2 392
Баллы
113

budora

Client
Регистрация
13.08.2012
Сообщения
831
Благодарностей
554
Баллы
93
  • Спасибо
Реакции: BAZAg

Nord

Client
Регистрация
22.03.2012
Сообщения
2 358
Благодарностей
1 419
Баллы
113
Мне необходимо только число указанное на скриншоте.
Если на основании этого числа Вы собираетесь делать какие то выводы - то не стоит.
Это, можно так сказать, некий усредненный результат, от части рандом.
У меня была задача собрать эту статку по нескольким десяткам тысяч ГСов на блогспоте, и в процессе "разработки" пришел к тому, что это число очень отдаленно отображает реальную картину.

Грубо говоря, на тех дорах было ровно 10к страниц на каждом.
А site: говорил, что на некоторых 15-25к результатов, и наоборот, гугл говорит о 120 страницах в индексе - а при постраничной проверке индекса всех 10к страниц - у нас 6к страниц в нем.

Сорри, за немного оффтоп
 
  • Спасибо
Реакции: BAZAg

AZANIR

Client
Регистрация
09.06.2014
Сообщения
405
Благодарностей
196
Баллы
43
Если на основании этого числа Вы собираетесь делать какие то выводы - то не стоит.
Это, можно так сказать, некий усредненный результат, от части рандом.
У меня была задача собрать эту статку по нескольким десяткам тысяч ГСов на блогспоте, и в процессе "разработки" пришел к тому, что это число очень отдаленно отображает реальную картину.

Грубо говоря, на тех дорах было ровно 10к страниц на каждом.
А site: говорил, что на некоторых 15-25к результатов, и наоборот, гугл говорит о 120 страницах в индексе - а при постраничной проверке индекса всех 10к страниц - у нас 6к страниц в нем.

Сорри, за немного оффтоп
почему офтоп какраз тема в том что гугл крутит как хочет)
 
  • Спасибо
Реакции: BAZAg

BAZAg

Client
Регистрация
08.11.2015
Сообщения
1 758
Благодарностей
2 392
Баллы
113
Если на основании этого числа Вы собираетесь делать какие то выводы - то не стоит.
Это, можно так сказать, некий усредненный результат, от части рандом.
У меня была задача собрать эту статку по нескольким десяткам тысяч ГСов на блогспоте, и в процессе "разработки" пришел к тому, что это число очень отдаленно отображает реальную картину.

Грубо говоря, на тех дорах было ровно 10к страниц на каждом.
А site: говорил, что на некоторых 15-25к результатов, и наоборот, гугл говорит о 120 страницах в индексе - а при постраничной проверке индекса всех 10к страниц - у нас 6к страниц в нем.

Сорри, за немного оффтоп
Вы ответили очень даже в тему! Спасибо!
Решение собирается для постраничной проверки индекса определенных страниц.
На основании полученных данных например с 10 ip - если хотя бы 10% (например, тестами точно будет выведено приблизительное значение и количество попыток проверки и интервал проверки одной странички) выдало хоть что-то - собрался делать вывод что страничка есть в индексе.
А потом... Потом эти данные будут сохраняться в базе например все проверки за последних 10 дней - и уже относительно этого можно будет строить какие-то предположения.
Но... Пока желающих поучаствовать в этом мероприятии нет (те что есть - не внушают мне доверия - не уверен что смогут потянуть такой проект).
 

BAZAg

Client
Регистрация
08.11.2015
Сообщения
1 758
Благодарностей
2 392
Баллы
113
Исполнитель найден.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)