Парсинг данных (картинок) с поисковых систем (на примере Google) на C#

barkasian

Client
Регистрация
03.12.2014
Сообщения
127
Благодарностей
137
Баллы
43
Привет, друзья!
В рамках конкурса хочу с Вами поделиться своим шаблоном, в которых Вы сможете увидеть как с помощью нескольких строк в визуальном кубике C#-коде, можно получить список урлов картинок с Гугл по Вашему ключевику.

В качестве бонуса, предлагается кубик (так же в несколько строк) для сбора сниппетов из ПС Спутник.

data_parsing2.jpg

Вся соль шаблона зашита OwnCodeUsings
Приятного изучения! )

P.S.
Хочу выразить благодарность разработчикам и обитателям этого форума! Благодаря Вам я могу постигать всю прелесть, силу и красоту ZennoPoster!
 
Категория
Парсинг
Номер конкурса шаблонов
Первый конкурс шаблонов
Уровень сложности
Продвинутый

Вложения

Для запуска проектов требуется программа ZennoPoster или ZennoDroid.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте нужную программу. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

Последнее редактирование:

arhip1985

Client
Регистрация
31.10.2011
Сообщения
2 952
Благодарностей
779
Баллы
113
с удовольствием поизучаю, спасибо
 
  • Спасибо
Реакции: barkasian

serjik777

Client
Регистрация
18.10.2015
Сообщения
20
Благодарностей
15
Баллы
3
Для меня оказалось познавательно
 
  • Спасибо
Реакции: barkasian

kerteis

Новичок
Регистрация
29.11.2015
Сообщения
7
Благодарностей
0
Баллы
1
Ребят, подскажите что нужно настроить что бы работал шаблон?
Добавил ключи, запускаю => проект выполнен с ошибкой (и гугл и спутник)
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
127
Благодарностей
137
Баллы
43
Ребят, подскажите что нужно настроить что бы работал шаблон?
Добавил ключи, запускаю => проект выполнен с ошибкой (и гугл и спутник)
Скрин ошибок выложи
Я сейчас скачал с форума свой шаб и запустил. Сработало все на ок.
screen.jpg
 
Последнее редактирование:

kerteis

Новичок
Регистрация
29.11.2015
Сообщения
7
Благодарностей
0
Баллы
1
Вот в лог
2018-02-23 09:38:48.9375|WARN|ZennoLab.LogLibrary.InternalError|Ошибка в модуле "Компиляция кода проекта"
Сообщение: "Ошибка при компиляции общего кода "CS0117" "'ZennoLab.Macros.TextProcessing' не содержит определение для 'Trim'". [Строка: 111; Cтолбец: 50]"
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
127
Благодарностей
137
Баллы
43
Вот в лог
2018-02-23 09:38:48.9375|WARN|ZennoLab.LogLibrary.InternalError|Ошибка в модуле "Компиляция кода проекта"
Сообщение: "Ошибка при компиляции общего кода "CS0117" "'ZennoLab.Macros.TextProcessing' не содержит определение для 'Trim'". [Строка: 111; Cтолбец: 50]"
Какая версия ZennoPoster у вас?
В случае чего в общем коде (OwnCodeUsings) 111 строку замените
Код:
string snip = ZennoLab.Macros.TextProcessing.Trim(rxMatch.Value, "Full");

на

string snip = rxMatch.Value;
 

kerteis

Новичок
Регистрация
29.11.2015
Сообщения
7
Благодарностей
0
Баллы
1
5.9.9.1
Ошибка исчезла, но появилась другая,
2018-02-23 10:20:18.1093|Error in Manager.DumpFiles.ListLastActivityTime: Path=C:\keyms.txt, Count=5, Separator=
, Synchronize=True, IsChanged=False, IsDeleted=False, IsRefreshed=False|System.NullReferenceException: Ссылка на объект не указывает на экземпляр объекта.
в ZennoLab.FileManager.Manager.DumpFiles()
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
127
Благодарностей
137
Баллы
43
В шаблон внесены изменения: переписан класс парсеров, с целью увлечения скорости и стабильности работы в многопотоке
См. стартовый пост.
 
Регистрация
13.04.2016
Сообщения
650
Благодарностей
52
Баллы
28
Это шутка такая? что с этим шаблоном делать?
Зачем вообще выкладывать только кусок недоделанного шаблона?
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
127
Благодарностей
137
Баллы
43
Это шутка такая? что с этим шаблоном делать?
Зачем вообще выкладывать только кусок недоделанного шаблона?
Я дал Вам удочку. Что с ней делать - решает каждый для себя сам.
Этот "недоделанный шаблон" - он только в Вашей голове...
 
  • Спасибо
Реакции: tim.go
Регистрация
13.04.2016
Сообщения
650
Благодарностей
52
Баллы
28
Я дал Вам удочку. Что с ней делать - решает каждый для себя сам.
Этот "недоделанный шаблон" - он только в Вашей голове...
Это всё равно что подарить ребёнку колёса от машинки, вместо машинки...
-Подростёшь сынок и сам решишь что это будет, - может машинка, может автобус, а может и бмп соберёшь со временем;
Вобщем сынок я тебе сделал подарок, а ты уже сам решишь что из него получится))
 
  • Спасибо
Реакции: Szerzs

z@jivalo

Client
Регистрация
27.12.2016
Сообщения
798
Благодарностей
178
Баллы
43
а кол-во урлов как-то можно регулировать ?
А то по фразе телефон 48 шт нашел всего
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
127
Благодарностей
137
Баллы
43

z@jivalo

Client
Регистрация
27.12.2016
Сообщения
798
Благодарностей
178
Баллы
43

barkasian

Client
Регистрация
03.12.2014
Сообщения
127
Благодарностей
137
Баллы
43
в большую
Вот мне надо допусти 500-1000 шт как это сделать? и то бы они не были одинаковыми
Запрос к Гугл картинкам идет через get и данные берутся с "первого экрана". Если требуется больше картинок то тут наверно только через браузер с прокруткой
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 099
Баллы
113
в большую
Вот мне надо допусти 500-1000 шт как это сделать? и то бы они не были одинаковыми
Запрос к Гугл картинкам идет через get и данные берутся с "первого экрана". Если требуется больше картинок то тут наверно только через браузер с прокруткой
https://www.google.ru/search?tbs=isz:lt,islt:vga,itp:photo,ift:jpg&tbm=isch&q=&asearch=ichunk&as_q=keyword&ijn=0
где параметры:
tbs - фильтр;
as_q - поисковый запрос;
ijn - номер страницы (от нуля до хз скольки)) ).

По ссылке отдаётся чистый JSON без лишнего мусора, в отличие от ссылки использованной в шаблоне, соответственно увеличивается скорость и уменьшается трафик.

Регулярка для парсинга ссылок на картинки:
Код:
(?<=\\\"ou\\\":\\\").*?(?=\\\")
Ссылки парсятся с экранированными слэшами, поэтому непосредственно во время парсинга либо после, нужно делать замену \/ на / и \\ на \ (или по регулярке \\(?=[^\\]) на пустоту)
 

Roman*

Client
Регистрация
25.09.2013
Сообщения
1 649
Благодарностей
652
Баллы
113
Благодарю, за шаблон, как раз во-время, быстро и эффективно парсит картинки.
 
Последнее редактирование:

Hazar

Client
Регистрация
05.12.2018
Сообщения
107
Благодарностей
19
Баллы
18
Запрос к Гугл картинкам идет через get и данные берутся с "первого экрана". Если требуется больше картинок то тут наверно только через браузер с прокруткой
А где могут понадобиться урлы картинок? Сами картинки не парсяться?
 

spbalexpiter

Client
Регистрация
24.11.2013
Сообщения
353
Благодарностей
55
Баллы
28
не работает, точнее код исполняется за секунду, но результата нет
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
127
Благодарностей
137
Баллы
43
не работает, точнее код исполняется за секунду, но результата нет
Салют, что именно не работает?
Сейчас скачал шаблон с первого поста и запустил. Сниппеты для Гугла и Спутника отработали как следует.
 
Регистрация
10.07.2017
Сообщения
29
Благодарностей
1
Баллы
3
Спасибо, что поделились. Я люблю учиться рыбачить.
 

tim.go

Client
Регистрация
29.11.2019
Сообщения
103
Благодарностей
8
Баллы
18
Привет, друзья!
В рамках конкурса хочу с Вами поделиться своим шаблоном, в которых Вы сможете увидеть как с помощью нескольких строк в визуальном кубике C#-коде, можно получить список урлов картинок с Гугл по Вашему ключевику.

В качестве бонуса, предлагается кубик (так же в несколько строк) для сбора сниппетов из ПС Спутник.

Посмотреть вложение 27440

Вся соль шаблона зашита OwnCodeUsings
Приятного изучения! )

P.S.
Хочу выразить благодарность разработчикам и обитателям этого форума! Благодаря Вам я могу постигать всю прелесть, силу и красоту ZennoPoster!
Подскажите пожалуйста, при парсинге выдает, что ни одного фото не найдено, как это можно поправить?

P.S пробовал кучу разных запросов, на них точно есть фото
 

dima8121

Client
Регистрация
09.09.2018
Сообщения
14
Благодарностей
6
Баллы
3
Подскажите пожалуйста, при парсинге выдает, что ни одного фото не найдено, как это можно поправить?

P.S пробовал кучу разных запросов, на них точно есть фото
Такая же ерунда.
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
127
Благодарностей
137
Баллы
43
Подскажите пожалуйста, при парсинге выдает, что ни одного фото не найдено, как это можно поправить?

P.S пробовал кучу разных запросов, на них точно есть фото
Такая же ерунда.
Гугл стал кодировать путь картинки в base64
 

tim.go

Client
Регистрация
29.11.2019
Сообщения
103
Благодарностей
8
Баллы
18

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)