Чекер признаков сайтов на запросах и с браузером

Регистрация
03.12.2020
Сообщения
146
Благодарностей
100
Баллы
43
Всем привет. Шаблон создан, чтобы набраться опыта и накопить на лицензию ZennoPoster.

Шаблон сделан по запросу пользователя FAQBILL. Ему потребовался шаблон который смог бы загружать в браузере ссылки или домены из входного файла и проверять загруженное содержимое на наличие неких признаков, которые можно было бы задать во входных настройках шаблона. Например, чтобы отобрать из массы скачанных с https://www.icann.org/ доменов сайтов с формами обратной связи, или ссылками на регистрацию.
При помощи этого шаблона вполне можно отобрать по признакам сайты на разных движках:

Например:
C#:
WordPress
/wp-content/themes/

Joomla
"Joomla! is Free Software"
"Powered by Joomla!"
"About Joomla!"
"Designed by JoomlArt.com
А недавно мне просто понадобилось прочекать 57 тысяч доменов на присутствие ответа или парковку. То есть, надо было узнать, висят эти домены или там что-то есть. Что может быть проще, как задать шаблону признак "200 OK" ;-)

Шаблон на запросах получился довольно шустрым, поскольку в нем нет ничего лишнего.

Входные настройки просты:

73636


На вход подается текстовый файл со списком доменов/ссылок. В поле Что ищем указывается признак. Можно выбрать файл с прокси.
Отдельного внимания заслуживает разве что галочка Добавлять попытки. Если она установлена, то в конце каждой итерации будет устанавливать количество попыток в ZennoPoster равное количеству строк во входном файле.


Вот карта этого шаблона:
73635


Надо сказать, что для этого шаблона вообще не нужны прокси. Но на стадии проектирования я заложил в шаблон эту возможность, и решил, что для особо требовательных пользователей подобный функционал может пригодиться.

Результатом работы шаблона станут три файла.
Имя выходных файлов формируются из названия входного файла, режима работы и статуса проверки.
1. Имя файла_get_Found.txt - искомый текст обнаружен
2. Имя файла_get_Not_Found.txt - искомый текст не обнаружен
3. Имя файла_get_Error.txt - при загрузке этик ссылок произошла ошибка/сбой

На практике хватает чекера на запросах, однако для достижения максимальной достоверности, можно собрать все неудачные списки в один и прогнать через браузерную версию чекера, ведь в последнее время стало модно защищать сайты CloudFlare или еще каким-нибудь CDN, да и просто скрипт JS можно закрыть жертву от парсинга. В данном же случае, использование прокси и браузерной версии чекера решают эту задачу.

Отличается браузерная версия только установкой прокси и тем, что признак парсится из {-Page.Dom-}.

Всем успехов и удачи!

Конструктивная критика приветствуется!
 
Категория
Чекер
Номер конкурса шаблонов
Седьмой конкурс шаблонов
Уровень сложности
Лёгкий

Вложения

Для запуска проектов требуется программа ZennoPoster или ZennoDroid.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте нужную программу. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

Последнее редактирование модератором:

radv

Client
Регистрация
11.05.2015
Сообщения
3 670
Благодарностей
1 855
Баллы
113
Шаблон создан, чтобы набраться опыта и накопить на лицензию ZennoPoster.
Молодец. Уже вторая твоя тема, жаль призовые дают только за одну, которая наберет больше голосов. Но все равно, так держать. :az:
 
  • Спасибо
Реакции: Antonio Banderas

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 941
Благодарностей
4 333
Баллы
113
стало модно защищать сайты CloudFlare или еще каким-нибудь CDN, да и просто скрипт JS можно закрыть жертву от парсинга. В данном же случае, использование прокси и браузерной версии чекера решают эту задачу
Вот это самое важное преимущество, обычный парсинг по признакам работает во многих софтах.
Кстати, базы данных Интернет-магазинов не у кого нет?
 
  • Спасибо
Реакции: Antonio Banderas

devffy

Client
Регистрация
16.03.2019
Сообщения
541
Благодарностей
188
Баллы
43
Молодец. Уже вторая твоя тема, жаль призовые дают только за одну, которая наберет больше голосов. Но все равно, так держать. :az:
Все остальные участники получат по 40-50$) Если считать каждую статью, то уже соточка))
 
  • Спасибо
Реакции: Antonio Banderas

radv

Client
Регистрация
11.05.2015
Сообщения
3 670
Благодарностей
1 855
Баллы
113
Если считать каждую статью, то уже соточка))
Призовые только за одну статью начисляют, ту которая больше голосов наберет. А вот если призовые в личный кабинет зачислять, то они удваиваются. :az:
 
  • Спасибо
Реакции: Antonio Banderas

Nord

Client
Регистрация
22.03.2012
Сообщения
2 369
Благодарностей
1 427
Баллы
113
в последнее время стало модно защищать сайты CloudFlare или еще каким-нибудь CDN, да и просто скрипт JS можно закрыть жертву от парсинга. В данном же случае, использование прокси и браузерной версии чекера решают эту задачу.
Это даже с браузером не спасет.
Половину блокировок можно обойти подставив реферер разных ПС либо же изначальный сайт
 
  • Спасибо
Реакции: burhanov88 и sp.gst

Nebot

Client
Регистрация
25.04.2014
Сообщения
90
Благодарностей
79
Баллы
18

Zennovods

Client
Регистрация
11.02.2019
Сообщения
212
Благодарностей
125
Баллы
43
Круто вышло, отбирать по признакам, как некоторые известные спамилки и парсеры выходит, а вот здесь не совсем понял, где там домены, сори конечно, но не нашел пока):

Например, чтобы отобрать из массы скачанных с https://www.icann.org/ доменов сайтов
 

vrska

Client
Регистрация
07.02.2010
Сообщения
589
Благодарностей
408
Баллы
63

vrska

Client
Регистрация
07.02.2010
Сообщения
589
Благодарностей
408
Баллы
63

Kokos

Client
Регистрация
05.09.2019
Сообщения
117
Благодарностей
56
Баллы
28
Отличная работа, спасибо !!
 
  • Спасибо
Реакции: Antonio Banderas
Регистрация
03.12.2020
Сообщения
146
Благодарностей
100
Баллы
43
Регистрация
03.12.2020
Сообщения
146
Благодарностей
100
Баллы
43
По признакам сайтов, если нужно cms найти, то
[SARCASM MODE ON]Если вдруг у вас появилась нестандартная задача по выборке, в которую вы бы не хотели никого посвящать, то конечно же удобнее обратиться к разработчику ваппалайзера за реализацией, или разбираться в яваскрипте, на котором написан его продукт [SARCASM MODE OFF]
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
495
Благодарностей
311
Баллы
63
Спасибо за идею. Правда я свои паттерны применил. В аттаче выходные результаты 50 000 + с кучей результатов.
 

Вложения

DevOps

Client
Регистрация
30.11.2020
Сообщения
495
Благодарностей
311
Баллы
63
Это даже с браузером не спасет.
Половину блокировок можно обойти подставив реферер разных ПС либо же изначальный сайт
Данный форум тоже под CloudFlare
WIN+R CMD CURL -L -I zennolab.com
Далее распарсить
 
  • Спасибо
Реакции: Antonio Banderas

vrska

Client
Регистрация
07.02.2010
Сообщения
589
Благодарностей
408
Баллы
63

specialist

Client
Регистрация
28.12.2018
Сообщения
732
Благодарностей
343
Баллы
63
понадобилось прочекать 57 тысяч доменов на присутствие ответа или парковку
И так каждый раз заново на один признак? Посмотрел шаблон, как в него вставить сразу большой список признаков?
Во входных настройках одна строка для регулярки.
 
  • Спасибо
Реакции: Antonio Banderas

DevOps

Client
Регистрация
30.11.2020
Сообщения
495
Благодарностей
311
Баллы
63
И так каждый раз заново на один признак? Посмотрел шаблон, как в него вставить сразу большой список признаков?
Во входных настройках одна строка для регулярки.
Имхо,

var regex = new System.Text.RegularExpressions.Regex("Ваш_Regex");
var regex2 = new System.Text.RegularExpressions.Regex("Ваш_Regex_2");
var regex3 = new System.Text.RegularExpressions.Regex("Ваш_Regex_3");
1998 CMS и у некоторых более десятка признаков. Нетривиальная задача. Завидую тем кто только начинает это увлекательное путешествие в паттерное проектирование
 
  • Спасибо
Реакции: Antonio Banderas
Регистрация
03.12.2020
Сообщения
146
Благодарностей
100
Баллы
43
И так каждый раз заново на один признак? Посмотрел шаблон, как в него вставить сразу большой список признаков?
Во входных настройках одна строка для регулярки.
Способов как решить эту задачу - много.
1. Закинуть шаблон в зенку столько раз, сколько признаков нужно искать и в каждой копии настроить нужные параметры.
2. Добавить в шаблон еще один список и делать перекрёстные сравнения, после получения ответа сайта, как это было сделано в платном варианте данного шаблона.
3. Тут могли быть ваши варианты решения этой задачи :-)
 
  • Спасибо
Реакции: DevOps

DevOps

Client
Регистрация
30.11.2020
Сообщения
495
Благодарностей
311
Баллы
63
Способов как решить эту задачу - много.
1. Закинуть шаблон в зенку столько раз, сколько признаков нужно искать и в каждой копии настроить нужные параметры.
2. Добавить в шаблон еще один список и делать перекрёстные сравнения, после получения ответа сайта, как это было сделано в платном варианте данного шаблона.
3. Тут могли быть ваши варианты решения этой задачи :-)
Можно про платный шаблон в личку?
 
Регистрация
03.12.2020
Сообщения
146
Благодарностей
100
Баллы
43

specialist

Client
Регистрация
28.12.2018
Сообщения
732
Благодарностей
343
Баллы
63
еще один список и делать перекрёстные сравнения
Как оно будет работать, если нужно проверить несколько признаков?

Тут могли быть ваши варианты решения этой задачи
у меня другие подходы к решению похожих задач, например, интересны ваши варианты
 
  • Спасибо
Реакции: Alexmd
Регистрация
03.12.2020
Сообщения
146
Благодарностей
100
Баллы
43
Как оно будет работать, если нужно проверить несколько признаков?
Почти также. Просто после выполнения запроса, в полученном ответе делается поиск всех признаков из дополнительного списка (признаков). В случае обнаружения, по имени признака создается каталог, куда и помещаются результаты.
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
495
Благодарностей
311
Баллы
63
Как оно будет работать, если нужно проверить несколько признаков?


у меня другие подходы к решению похожих задач, например, интересны ваши варианты
KALI LINUX инструмент WhatWeb
Будут вопросы с командами пишите в личку
 
  • Спасибо
Реакции: specialist

specialist

Client
Регистрация
28.12.2018
Сообщения
732
Благодарностей
343
Баллы
63
Регистрация
03.12.2020
Сообщения
146
Благодарностей
100
Баллы
43

sydoow

Client
Регистрация
22.06.2011
Сообщения
272
Благодарностей
141
Баллы
43
Регистрация
03.12.2020
Сообщения
146
Благодарностей
100
Баллы
43
  • Спасибо
Реакции: sydoow

Medvedoc

Client
Регистрация
01.04.2017
Сообщения
164
Благодарностей
10
Баллы
18
что за файл такой zp? Не могу его в zennoposter открыть
 

Phoenix78

Client
Read only
Регистрация
06.11.2018
Сообщения
11 790
Благодарностей
5 689
Баллы
113

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)