Плавное снижение работы ZennoPoster

Jeronimo

Client
Регистрация
07.01.2014
Сообщения
229
Благодарностей
203
Баллы
43
Всем привет.
Создал проект парсинга всех страниц объявлений с сайта через Get запросы.
Сам шаблон работает как надо, вот только при его запуске через ZennoPoster (не через ProjectMaker), скорость выполнения постепенно снижается.
Выполняется проект в один поток на Lite версии.
Дайте, пожалуйста, советы и рекомендации по сохранению первоначальной скорости работы шаблона.

P.S. Выкладывать сам шаблон тут не буду, но на все вопросы буду отвечать в ветке.
P.P.S. В ZennoPoster'e я можно сказать новичок, поэтому, пожалуйста, отвечайте понятным новичкам языком.


Всем заранее спасибо за помощь!
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 607
Благодарностей
4 599
Баллы
113
Разбивай парсинг на небольшие задачи для одного выполнения. Т.е., если ты, например, сейчас парсишь за выполнение 100000 страниц, то организуй шаблон так, чтобы он выполнял парсинг всего 100 страниц. И ставь на выполнение, соответственно, 1000 попыток
 

Jeronimo

Client
Регистрация
07.01.2014
Сообщения
229
Благодарностей
203
Баллы
43
Может быть есть другие варианты?
Парсинг по 100 страниц не сделать, так как цикл прервётся и при повторном выполнении, значения будут браться одни и те же.

Какая у меня организация:
Берём страницу категории, на которой, к примеру, 15 000 объявлений.
Первый цикл парсит все объявления на 1-100 странице категории (упорядочены по цене - сначала дешёвые), т.е. получается 10 000 объявлений. Больше 100 страниц объявлений на странице категории сайт не отдаёт.
Второй цикл парсит все объявления на 1-100 странице категории (упорядочены по цене - уже самые дорогие), т.е. получается ещё 10 000 объявлений.
Далее удаляются в файле дубли и на выходе получаем файл с 15 000 страницами объявлений.

Категории могут включать в себя как 100 объявлений, так и 50 000.
 

z@jivalo

Client
Регистрация
27.12.2016
Сообщения
798
Благодарностей
178
Баллы
43
Такие вот логины пользователей меня смущают, как будто нареганно специально на случай
 

Jeronimo

Client
Регистрация
07.01.2014
Сообщения
229
Благодарностей
203
Баллы
43
Такие вот логины пользователей меня смущают, как будто нареганно специально на случай
Что вы имеете ввиду? Да, логин какой-то кривой. Только обратите внимание на статус - Client. Я тут не просто так зарегистрирован, а являюсь владельцем ZennoPoster'a и задаю вопросы по делу. А вы, похоже, оффтопите.
 

Jeronimo

Client
Регистрация
07.01.2014
Сообщения
229
Благодарностей
203
Баллы
43
В общем самостоятельно разобрался. Опишу как, может кому пригодится на будущее:
1. Через каждые 20 get запросов перезагрузка instans.
2. Добавил в проект мобильные прокси (в целях обхода блокировки). Всего 3 потока, но IP меняется каждые 2 минуты на каждом. Вот здесь можно юзать 3 потока 2,5 часа бесплатно (хоть и пишут, что всего 2 часа бесплатного теста даётся) https://airsocks.in/ru/ (подсказка - можно каждый раз регать новую почту и у тебя снова есть 2,5 бесплатных, мобильных и хороших прокси).
3. Как и рекомендовал doc - выполнение шаблона организовал таким образом, что после парсинга одной категории его выполнение завершалось. Далее в самом ZennoPoster установил количество повторений шаблона равное количеству категорий для парсинга.

В результате, если раньше за час парсилось от силы 20 000 страниц, то теперь 90 000 - 95 000 (и это в один поток на Lite версии).
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)