Парсер , перенос всех значений , нужен совет

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 362
Благодарностей
8 648
Баллы
113
Серго приветствую ! Серго, подскажи пожалуйста , у меня вопрос . Всё работает идеально, всё качается , всё как часы, но столкнулся с такими мелочами :
1. При парсинге картинок, он мне добавляет все URL на картинки- в одну колонку. https://prnt.sc/plfgsc Получается в оной колонке, куча URL собирается https://prnt.sc/plfbhj . Как сделать так, чтобы каждый URL был в отдельной колонке. В стиле колонка Images 1 - URL1 ; колонка Images 2- URL 2 и т.д
2. У меня есть Тэги https://prnt.sc/plfh20 , он их парсит списком c новой строки (таблицей) https://prnt.sc/plfh7w , а мне нужно чтобы он парсил все Тэги которые находит, в одну строчку, через запятую, каждый Тэг . Как пофиксить ?
1. Список по определению не может содержать столбцов, колонок, в списке есть только строки.
2. Можете применить к списку действие Операции над списком - Объединить в переменную и указать нужный рзделитель, в данном случае запятую.
 
  • Спасибо
Реакции: BTRRB

BTRRB

Пользователь
Регистрация
15.09.2019
Сообщения
34
Благодарностей
5
Баллы
8
1. Список по определению не может содержать столбцов, колонок, в списке есть только строки.
2. Можете применить к списку действие Операции над списком - Объединить в переменную и указать нужный рзделитель, в данном случае запятую.
С этим разобрались, вот эти вопросы появились теаперь
1. Через каждые 10 страниц , в процессе парсинга вылетает капча . https://prnt.sc/psrm8p Шаблон не тормозит процесс, идёт дальше и собирает нулевые данные. Нужно сделать так, чтобы он тормозил как капча вылетает , и давал возможность её ввести для начала в ручную и после ввода, успешного продолжал работу дальше. Как это сделать?
2. Как поставить этот шаблон в Многопоток, скажем в 5 потоков. Ибо я не нашёл как в Project MAker включить функцию многопотока. А мы же проект этот с тобой в Project Maker делали . Как решить этот вопрос тоже.
3. Как только Прокси ловит Бан с донора https://prnt.sc/pss0tl , получается такая же история, он продолжает парсить не останавливаясь с ошибкой 404 . Как исправить на правило, если ловит бан по прокси 404 , взять другой прокси ?
Спасибо ожидаю!
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 362
Благодарностей
8 648
Баллы
113
СергоДжан, приветствую тебя! Значит такие новости , Твистер помог, мы решили вопрос с этими 2 пунктами, всё работает как часы . Запустил я тестово 50 страниц на парсинг появились ещё 2 вопроса .

1. Через каждые 10 страниц , в процессе парсинга вылетает капча . https://prnt.sc/psrm8p Шаблон не тормозит процесс, идёт дальше и собирает нулевые данные. Нужно сделать так, чтобы он тормозил как капча вылетает , и давал возможность её ввести для начала в ручную и после ввода, успешного продолжал работу дальше. Как это сделать?
2. Как поставить этот шаблон в Многопоток, скажем в 5 потоков. Ибо я не нашёл как в Project MAker включить функцию многопотока. А мы же проект этот с тобой в Project Maker делали . Как решить этот вопрос тоже.
Спасибо ожидаю!
1. Можете сделать проверку наличия каптчи или одного из ее элементов, например поля для ввода ответа на каптчу.
Для этого нажмите прав. кн. мыши на каптче (картинке) или на поле ввода ответа и выберите пункт В конструктор действий, в нем выберите уникальный атрибут (который единожды есть на странице, с 0-ым кол-вом повторений),
например так:

44027


При выходе из экшена проверки (focus) выйдет по зеленому выходу - если есть каптча, по красному - если каптчи нет.

Подробнее почитать по конструктору дествий можно здесь:

Еще хорошая статья есть на эту тему, из конкурсных:

2. Для многопотока важно брать данные без повторов, напрмиер если у вас есть входные данные в виде урлов на страницы, то в шаблоне просто берите строку урла из списка сразу с удалением, тогда другой поток ее уже не возьмет. Других каких то манипуляций для многопотока, в вашем конкретном случае, не нужно делать. В результате каждый поток отработает со своим урлом страницы, без повторений.
 
  • Спасибо
Реакции: BTRRB

BTRRB

Пользователь
Регистрация
15.09.2019
Сообщения
34
Благодарностей
5
Баллы
8
1. Можете сделать проверку наличия каптчи или одного из ее элементов, например поля для ввода ответа на каптчу.
Для этого нажмите прав. кн. мыши на каптче (картинке) или на поле ввода ответа и выберите пункт В конструктор действий, в нем выберите уникальный атрибут (который единожды есть на странице, с 0-ым кол-вом повторений),
например так:

Посмотреть вложение 44027

При выходе из экшена проверки (focus) выйдет по зеленому выходу - если есть каптча, по красному - если каптчи нет.

Подробнее почитать по конструктору дествий можно здесь:

Еще хорошая статья есть на эту тему, из конкурсных:

2. Для многопотока важно брать данные без повторов, напрмиер если у вас есть входные данные в виде урлов на страницы, то в шаблоне просто берите строку урла из списка сразу с удалением, тогда другой поток ее уже не возьмет. Других каких то манипуляций для многопотока, в вашем конкретном случае, не нужно делать. В результате каждый поток отработает со своим урлом страницы, без повторений.
1. С капчей разберусь . Мне самое главное чтобы когда она появлялась , он тормозил,а не продолжал собирать пустые данные . В этом вся проблема , он не тормозит
2. Да данные есть ввиде урлов из списка . Но мне главное , активировать эти 5 потоков . Где в Project MAker включаются потоки , я не нашёл.
3. Как только Прокси ловит Бан с донора https://prnt.sc/pss0tl , получается такая же история, он продолжает парсить не останавливаясь с ошибкой 404 . Как исправить на правило, если ловит бан по прокси 404 , взять другой прокси ?
Спасибо ожидаю!
 
Последнее редактирование:

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 362
Благодарностей
8 648
Баллы
113
1. С капчей разберусь . Мне самое главное чтобы когда она появлялась , он тормозил,а не продолжал собирать пустые данные . В этом вся проблема , он не тормозит
2. Да данные есть ввиде урлов из списка . Но мне главное , активировать эти 5 потоков . Где в Project MAker включаются потоки , я не нашёл.
3. Как только Прокси ловит Бан с донора https://prnt.sc/pss0tl , получается такая же история, он продолжает парсить не останавливаясь с ошибкой 404 . Как исправить на правило, если ловит бан по прокси 404 , взять другой прокси ?
Спасибо ожидаю!
1. По выходу из экшена с focus'ом можно завершать выполнение, либо распознавать каптчу автоматически или вручную.
2. В ПроджектМейкере нет ничего такого, что нужно было бы включать для использования возможности многопоточного выполнения. Просто запускайте в Зеннопостере в нужное кол-во потоков. В ПМ возможно отладочное выполнение всегда в одном потоке.
3. Можете отлавливать по элементу на странице - через прав. кн. мыши на элементе отправляете в конструктор действий и там создаете экшен click (если эл. не кликабельный) или focus (если эл. кликабельный), либо выделяете текст на странице, появление которого нужно отслеживать, и из контекстного меню по прав. кн. мыши создаете действие проверки выделенного текста, создастся группа из двух экшенов, один из которых будет IF, из него соотв по красному и зеленому выходу идете на дальнейшие шаги.
 
Последнее редактирование:
  • Спасибо
Реакции: BTRRB

BTRRB

Пользователь
Регистрация
15.09.2019
Сообщения
34
Благодарностей
5
Баллы
8
1. По выходу из экшена с focus'ом можно завершать выполнение, либо распознавать каптчу автоматически или вручную.
2. В ПроджектМейкере нет ничего такого, что нужно было бы включать для использования возможности многопоточного выполнения. Просто запускайте в Зеннопостере в нужное кол-во потоков. В ПМ возможно отладочное выполнение всегда в одном потоке.
3. Можете отлавливать по элементу на странице - через прав. кн. мыши на элементе отправляете в конструктор действий и там создаете экшен click (если эл. не кликабельный) или focus (если эл. кликабельный), либо выделяете текст на странице, появление которого нужно отслеживать, и из контекстного меню по прав. кн. мыши создаете действие проверки выделенного текста, создасться группа из двух экшенов, один из которых будет IF, из него соотв по красному и зеленому выходу идете на дальнейшие шаги.
Спасибо большое , сейчас будем колдовать!
 
Последнее редактирование:
  • Спасибо
Реакции: Sergodjan

BTRRB

Пользователь
Регистрация
15.09.2019
Сообщения
34
Благодарностей
5
Баллы
8

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 362
Благодарностей
8 648
Баллы
113

Висит вот такая капча на странице. Единственная кнопка - подтверждение ввода. Как решаются такие капчи?
Любым сервисом ручного распознавания.
Если есть КапМонстер, то можете универсальным модулем попробовать решать,
но нужно проверять (тестировать) на стабильность (правильность) распознавания.
 
  • Спасибо
Реакции: BTRRB

TwistDanceR

Активный пользователь
Регистрация
30.05.2019
Сообщения
479
Благодарностей
200
Баллы
43
Любым сервисом ручного распознавания.
Если есть КапМонстер, то можете универсальным модулем попробовать решать,
но нужно проверять (тестировать) на стабильность (правильность) распознавания.
А где можно прочитать про прикручивание текстовых капч? У меня в проектах антикапча используется, но там вызов работы капчи идёт через чек "I am not a robot".
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 362
Благодарностей
8 648
Баллы
113
А где можно прочитать про прикручивание текстовых капч? У меня в проектах антикапча используется, но там вызов работы капчи идёт через чек "I am not a robot".
Вот как вариант:

Нашел на форуме через поиск в Яндексе: site:zennolab.com Recaptcha2
Можете также использовать встроенный Поиск на форуме.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)