Мониторинг изменений на сайтах с помощью Zennoposter

Амели

Новичок
Регистрация
16.01.2024
Сообщения
2
Благодарностей
0
Баллы
1
Приветствую сообщество Zennoposter!
У меня возникла конкретная задача, и я хочу узнать, может ли Zennoposter помочь мне в ее решении. Планирую проверять каждый месяц более 4000 сайтов из 25 различных стран на наличие изменений в следующих категориях:
  1. Главное фото продукта
  2. Название продукта
  3. Категория продукта
  4. Бренд продукта
  5. Цена продукта
  6. Описание продукта (на некоторых страницах текст, на некоторых баннеры в описании)
Мне интересно узнать, реально ли с помощью Zennoposter автоматизировать этот процесс мониторинга для многочисленных сайтов из разных стран. Кто-то уже пробовал использовать Zennoposter для подобных задач с учетом многонационального контента? Если да, поделитесь своим опытом, пожалуйста.
Также, буду благодарна за советы по конфигурации задачи или использованию конкретных функций Zennoposter для этого вида мониторинга, особенно в контексте работы с сайтами из разных стран.
Спасибо заранее за ваши отзывы и рекомендации!
 

Moonwalker

Client
Регистрация
16.03.2016
Сообщения
1 364
Благодарностей
957
Баллы
113
Реализовать с помощью ZennoPoster можно. У каждого опыт свой, делиться бессмысленно. Как решать - зависит от конкретной задачи (возможно, писать условный микропарсер под каждый сайт и постоянно его править, если что-то изменилось). Сводить все в БД, брать оттуда последнее значение, сверять с текущим, если совпадают - не трогать, если нет - уведомлять и перезаписывать. В целом, в самой задаче нет ничего сложного, вопрос в реализации под 4000 разных сайтов (каждый со своей версткой, структурой и, порой, логикой)... В целом проблемы нет, 4к гет-запросов сделаются быстро (ну, не везде, возможно, в лоб, где-то придется защиту обойти).

ps. Или сейчас тут нативочка какого-нибудь сервиса появится? ))
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 458
Благодарностей
8 684
Баллы
113
ps. Или сейчас тут нативочка какого-нибудь сервиса появится? ))
Нативочки не будет, что уж вы сразу так подозреваете. :-)
Этот пользователь обратился также в тикет-систему.

Но тут, на форуме, тоже будут очень уместны рекомендации от опытных пользователей.
 
  • Спасибо
Реакции: Yuriy Zymlex

Yuriy Zymlex

Moderator
Команда форума
Регистрация
24.10.2016
Сообщения
6 373
Благодарностей
3 297
Баллы
113
Раз уж не тот раздел и наоффтопили...
Планирую проверять каждый месяц более 4000 сайтов из 25 различных стран на наличие изменений в следующих категориях
Это что такие за товары, если не секрет?
 

Амели

Новичок
Регистрация
16.01.2024
Сообщения
2
Благодарностей
0
Баллы
1
Стельки. Делала запрос на фрилансханте и мнения разделились, большинство написали, что точность проверки будет до 70%, это не подходит.
Также для прописания алгоритма - цены существенно отличаются. Вот и изначально хочется узнать по максимуму.
 

Moonwalker

Client
Регистрация
16.03.2016
Сообщения
1 364
Благодарностей
957
Баллы
113
А какие могут быть варианты в ценах при таком задании? Времени уйдет много, учитывая количество источников, если точность нужна максимальная. Вы же понимаете, что под каждый сайт придется писать свою логику? А дальше все просто. Один оценивает час своей работы в $2, другой - в $30. Вот и цена. В Вашем случае, возможно, будет проще заказать универсальное решение, где "путь" к нужным элементам под каждый сайт Вы сами сможете указывать, а шаблон просто будет их обрабатывать. Но тогда уйдет куча Вашего времени (прописать пути для всех 4000 сайтов). Вы же свое время тоже как-то оцениваете, правильно, вот и прикиньте, за сколько Вы готовы это сделать? ))) Все остальное-то - мелочь, сделается быстро.

ps. Просто прикиньте, что разработчику придется разбираться с каждым конкретным сайтом. Даже если мы исходим, что за каждый сайт будет взято по 500 рублей (это если там нет кучи защит и прочего, но усредним с учетом, что какие-то, пусть и маловероятно, могут повторяться по структуре, но все равно на них придется время потратить на проверить), сами можете прикинуть, во что встанет, учитывая 4к сайтов ))) Ну либо писать условно усредненный вариант, но тогда, боюсь, и 70% точность будет маловероятна ))) Ну либо Вы изначально неправильные вводные даете. Я себе с трудом представляю, зачем нужно 4000 сайтов (именно сайтов!) поставщиков для мониторинга. С другой, учитывая 25 языков, Вы - король по продажам стелек, поэтому 2-3 миллиона рублей на написание 4к парсеров - небольшие деньги ))
 
Последнее редактирование:
  • Спасибо
Реакции: Ribas

Konrod_m

Client
Регистрация
18.09.2014
Сообщения
1 662
Благодарностей
919
Баллы
113
Не совсем понятен смысл задачи, отсюда сложности с додумками..

Просто собрать данные и мониторить изменения - не сложно....

Спарсили данные, положили в БД. Через месяц - проверили, если что-то изменилось - отреагировали.. Зенно с этим точно справится.

Разные страны-языки, это скорее к логике ТЗ, разметка она более одинаковая...

Что именно должен решать инструмент?
 

one

Client
Регистрация
22.09.2015
Сообщения
6 793
Благодарностей
1 264
Баллы
113
4к сайтов действительно, как-то многовато и не понятно зачем столько. Для информации, я за парсер одного сайта беру от 50EUR.
 

ZULI

Client
Регистрация
09.09.2020
Сообщения
423
Благодарностей
165
Баллы
43
Мне интересно узнать, реально ли с помощью Zennoposter автоматизировать этот процесс мониторинга для многочисленных сайтов из разных стран.
Вполне себе, что мешает?

Кто-то уже пробовал использовать Zennoposter для подобных задач с учетом многонационального контента?
Вот вопрос в том что там разные языки, ценники в нац. валютах и тп, как это все приводить к общему непонятно. К примеру есть есть артикулы производителя, которые везде одинаковые, то можно привязаться к ним, запихать все к себе в базу и потом проходить по ней и сравнивать, но даже боюсь представить себе объемы.
 

Moonwalker

Client
Регистрация
16.03.2016
Сообщения
1 364
Благодарностей
957
Баллы
113
Да в целом нет проблемы. Ни с языками, ни с валютами, ни с разными сайтами... Главный вопрос, как выше неоднократно говорили, в 4000 сайтов )) Каждый потребует своего внимания (от быстрого "такое уже делали, сработает" до "хм, тут капча, клауд, бан по ip для России" и т.д.), я уже не говорю о том, что сайты меняются и парсеры придется постоянно править. Все реализуемо, вопрос в количестве времени и, соответственно, стоимости ))) Дешево точно не будет (ну, у адекватных исполнителей, которые и за качество будут отвечать). Причем, независимо от того, на чем будет все реализовано (ZennoPoster или другие методы/инструменты).
Сам для себя ежедневно обрабатываю пару десятков поставщиков (где-то прайсы дают скачать, где-то API, где-то парсить приходится, кого-то раз в сутки, кого-то круглосуточно каждый час). Все это завязывается на десяток интернет-магазинов и все маркетплейсы, с постоянным отслеживанием остатков и закупочных цен (при изменении которых, при необходимости, и продажная цена на площадке пересчитывается, учитывая текущие комиссии)... Из личного опыта сразу вижу несколько подводных камней, которые нужно понимать на начальном этапе. Причем, желательно, обоим: и заказчику, и исполнителю. Чтобы реализовать максимально удобно и масштабируемо (т.е., сами парсеры конкретных сайтов - это мелкая задача, просто объемная), т.е., все должно приводиться к общему виду... Вам либо искать грамотного исполнителя, который, возможно, будет лучше Вас понимать, что Вам в итоге нужно (да, такое бывает), либо продумывать всю структуру проекта самому и заказывать четко по ТЗ (и тут понадобится понимание, как в целом все работает, условно, та же Зенка).
Имхо, самый правильный вариант: продумать и создать каркас-систему, а потом уже исходя из нее писать/заказывать парсеры конкретных сайтов (вплоть до того, что разным исполнителям, сможете просто в ТЗ указывать, что должно делаться с данными, которые берутся с сайта). Даже если какой-то сайт сменит верстку, можно будет автору конкретному заказать правки парсера. А если он пропал, быстро заказать новый по тому же ТЗ.
ps. Но это, как говорится, взгляд со стороны исходя из своего личного опыта )) Есть все-таки ощущение, что в задаче либо что-то недосказано, либо перепутано ))) Там же, в конце концов, не в сайтах дело, а в товарах, и как они должны искаться/отрабатываться - вообще отдельная тема (изначальная база есть, условно, со ссылками на конкретные товары или же постоянный мониторинг всех товаров на сайте).
 
Последнее редактирование:

baracuda

Client
Регистрация
19.06.2013
Сообщения
734
Благодарностей
249
Баллы
43
может с разметки начать сайтов, если это шопы какие то.. а там может уже по легче дело пойдёт.
 

Moonwalker

Client
Регистрация
16.03.2016
Сообщения
1 364
Благодарностей
957
Баллы
113
может с разметки начать сайтов, если это шопы какие то.. а там может уже по легче дело пойдёт.
Задача все-таки в мониторить, а не просто парсить. Ну соберут они данные, получат, а что с ними потом делать нормально. Я бы все-таки от печки плясал... Но это мой взгляд, скажем так. Могу заблуждаться. В целом, не так важно, как работает, главное, что работает ))
 

Dr.Pipetka

Client
Регистрация
12.12.2017
Сообщения
1 236
Благодарностей
804
Баллы
113
Текстовой файл\таблица с данными:
урл на страницу товара\регулярка1\регулярка2\регулярка3\
урл на страницу товара\регулярка1\регулярка2\регулярка3\
урл на страницу товара\регулярка1\регулярка2\регулярка3\
Пробежались по ссылкам запросами, сохранили результаты регулярок.
Через N время опять пробежались и сравнили результаты. Оповестили об изминении.
Есть защита\капча - печаль беда)

Второй вариант юзать браузер и упростить решение стандартных каптч. Часть сайтов все равно будет кастомная и необходим индивидуальный подход. И время с ресурсами это займет немало.

Но тут стоит вопрос в написании такого количества регулярок) Страшный сон.
Естественно вместо регулярок можно использовать xpath и тд. Это никак не упрощает задачу)

Но как гарантировать что это будет работать? Сайт поменял дизайн, промо страничка, добавил скидку и регулярка\путь уже не действительны.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)