Парсер DuckDuckGo

Регистрация
12.07.2014
Сообщения
643
Благодарностей
253
Баллы
63
duck-duck-logo.png
Всем салют!
Представляю простой многопоточный парсер поисковика DuckDuckGo на GET-запросах.
Шаблон может быть полезен для подготовки парсинга контента парсером на GET запросах от Orka13. Т.е. Парсим поисковик и дергаем ссылки на сайты по нужному ключу.

Все настройки парсера.
настройки парсера.png


Файлы и папки
Файлы и папки.png



Папка Data содержит файлы ключевиков и фильтров.
Filtr.txt – список признаков для фильтрации урл.
keywords.txt – ключи для парсинга.

Папка OUT – содержит файл со спарсеными ссылками.
Папка Прокси – содержит файл с прокси серверами формата:
socks5://Логин:Пароль@Адрес сервера:Порт

ParserDuckDuckGo.xmlz – мультипоточный шаблон

Логика работы
  1. Стартуем и берем ключевик если нет ключей то идем фильтровать ссылки.
  2. Берем прокси и проверяем скачкой заголовка страницы myip.ru.
  3. Парсим токен из поисковика.
  4. Проверяемся на пустой ГЕТ и ошибку выдачи.
  5. Качаем выдачу.
  6. Парсим ссылки.
  7. Обрабатываем скаченное.
  8. Парсим ссылку на следующую страницу.
  9. Качаем следующую страницу, GO TO 6 и так в цикле до срабатывания счетчика.

На этапе парсинга «следующих страниц» могут быть ошибки или сработает счетчик страниц, тогда поток завершает работу.

Ограничение по количеству ключей для парсинга в шаблоне не делал. Т.е. шаблон работает, пока не закончатся ключевики в списке. После этого идет фильтрация от не нужных ссылок и все финал.

Результат
Результат ссылки.png
 

Вложения

Для запуска проектов требуется программа ZennoPoster.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте программу ZennoPoster. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

Последнее редактирование:

udder

Client
Регистрация
28.03.2017
Сообщения
260
Благодарностей
37
Баллы
28
Однозначно буду голосовать за Вас, т.к для меня большая потребность получать урлы сайтов для последующего парсинга.
Вопрос, возможно ли реализовать Парсинг только результатов на русском языке?
upload_2019-2-26_19-42-55.png


Протестировал, переменная tmp всегда пустая, от этого не получает ссылки. Хотя в переменной get есть информация о ссылках.

upload_2019-2-26_19-53-55.png
 
Последнее редактирование:
  • Спасибо
Реакции: Сибиряк

Шива

Известная личность
Регистрация
05.02.2018
Сообщения
1 096
Благодарностей
329
Баллы
83
Однозначно буду голосовать за Вас, т.к для меня большая потребность получать урлы сайтов для последующего парсинга.
Вопрос, возможно ли реализовать Парсинг только результатов на русском языке?
Посмотреть вложение 36575

Протестировал, переменная tmp всегда пустая, от этого не получает ссылки. Хотя в переменной get есть информация о ссылках.

Посмотреть вложение 36576
Без толку ставить страну россия все равно выдача под бурж
 
  • Спасибо
Реакции: Сибиряк
Регистрация
12.07.2014
Сообщения
643
Благодарностей
253
Баллы
63
Протестировал, переменная tmp всегда пустая, от этого не получает ссылки. Хотя в переменной get есть информация о ссылках.
После вашего поста. Попробовал запросы на кириллице, хотя изначально парсер использовался на английском.
обновление 1.png


Чуть изменил шаблон как на скрине.
 

Вложения

Последнее редактирование:
  • Спасибо
Реакции: nesorer, udder и teodocomo

Sambo7

Client
Регистрация
23.05.2018
Сообщения
173
Благодарностей
5
Баллы
18
Здравствуйте. Возможно ли пользоваться вашим шаблоном через пул мобильных проксей, настроив его при помощи шаба который занял 1 место в 3 конкурсе шаблонов, если у меня зенка версии лайт в 1 поток?
Если нет, то сколько урл можно спарсить при помощи 1 прокси? Меня интересуют урл которые стоят на 30-100500 страницах поисковиков!?
И еще один вопрос, меня интересуют урл без http и www, чтобы использовать шаб из 1 конкурса по рассылке e-mail, как этого добиться?

С уважением, благодарю за внятный ответ!
 
Регистрация
12.07.2014
Сообщения
643
Благодарностей
253
Баллы
63
Возможно ли пользоваться вашим шаблоном через пул мобильных проксей, настроив его при помощи шаба который занял 1 место в 3 конкурсе шаблонов, если у меня зенка версии лайт в 1 поток?
Да шаблону без разницы откуда прокси. Тут проблема в синхронизации смены IP адреса. Что бы парсер не работал в момент переподчинения. Т.е. надо или объединять в один шаб все или как то разруливать планировщиком.

Если нет, то сколько урл можно спарсить при помощи 1 прокси? Меня интересуют урл которые стоят на 30-100500 страницах поисковиков!?
Пока ПС не заблочит.))) ПС не отдают все ссылки. Гугл например на запрос отдает максимум 1000 кажется.

И еще один вопрос, меня интересуют урл без http и www, чтобы использовать шаб из 1 конкурса по рассылке e-mail, как этого добиться?
Вырезать регулярками. ссылка
В ПМ есть конструктор регулярок.
Тоже полезная тема, добавьте в закладки ссылка
 

Sambo7

Client
Регистрация
23.05.2018
Сообщения
173
Благодарностей
5
Баллы
18
А если я куплю в магазине 1 проксю socks5, сколько примерно можно спарсить урл с 1 прокси?
 
Регистрация
12.07.2014
Сообщения
643
Благодарностей
253
Баллы
63

Sambo7

Client
Регистрация
23.05.2018
Сообщения
173
Благодарностей
5
Баллы
18
Ну вот я пробовал только что вручную собирать урлы, пс яндекс заблочила через 180 собранных урлов, вы ведь наверно пользовались своим шабом и есть какой-то опыт... Будьте добры, дайте статистику, нужны цифры.
 
Регистрация
12.07.2014
Сообщения
643
Благодарностей
253
Баллы
63
Ну вот я пробовал только что вручную собирать урлы, пс яндекс заблочила через 180 собранных урлов, вы ведь наверно пользовались своим шабом и есть какой-то опыт... Будьте добры, дайте статистику, нужны цифры.
Я использую данный парсер для сбора урл и далее парсинга контента.
Обычно собираю 2-3 страницы с одного ключа.
Банов не было. Но опять же у меня 5-8 прокси в ротации.
Может это перестраховка. Но сделал так.
 
  • Спасибо
Реакции: Sambo7

Sambo7

Client
Регистрация
23.05.2018
Сообщения
173
Благодарностей
5
Баллы
18
Благодарю.
А вот смотрите, я по ключу собирал урлы, дощел до 60 стр. яши, пс заблочила... Она меня разблочит через какое то время, если да, то через какое?
Или ставить проксю и дальше?
 
Регистрация
12.07.2014
Сообщения
643
Благодарностей
253
Баллы
63
Благодарю.
А вот смотрите, я по ключу собирал урлы, дощел до 60 стр. яши, пс заблочила... Она меня разблочит через какое то время, если да, то через какое?
Или ставить проксю и дальше?
ДА разблочит. Только когда хз.
Лучше сменить проксю, почистить куки и парсить.
 

Sambo7

Client
Регистрация
23.05.2018
Сообщения
173
Благодарностей
5
Баллы
18
А чтоб ПС не урезала выдачу, лучше заходить на сайт хотябы с 1 выдачи и пролистывать сайт вниз?
 
Регистрация
12.07.2014
Сообщения
643
Благодарностей
253
Баллы
63

Sambo7

Client
Регистрация
23.05.2018
Сообщения
173
Благодарностей
5
Баллы
18
Столкнулся с проблемой, яндекс делает выдачу только до 65 страницы... А как искать урлы остальных сайтов?
 

Sambo7

Client
Регистрация
23.05.2018
Сообщения
173
Благодарностей
5
Баллы
18
Вместо 65 страницы в урле прописал 66... Яндекс ничего не нашел! Разве других вариантов нет?
 

specialist

Client
Регистрация
28.12.2018
Сообщения
690
Благодарностей
280
Баллы
63
Вместо 65 страницы в урле прописал 66.
1) Тут про duckduckgo - яндекса как такового тут нет, хотя и возможно использует его выдачу
2) Напишите лучше в личку, покажу на примере как работает

Разве других вариантов нет?
Полно, например каталог организаций спарсить
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)