Парсинг данных (картинок) с поисковых систем (на примере Google) на C#

barkasian

Client
Регистрация
03.12.2014
Сообщения
128
Благодарностей
125
Баллы
43
Привет, друзья!
В рамках конкурса хочу с Вами поделиться своим шаблоном, в которых Вы сможете увидеть как с помощью нескольких строк в визуальном кубике C#-коде, можно получить список урлов картинок с Гугл по Вашему ключевику.

В качестве бонуса, предлагается кубик (так же в несколько строк) для сбора сниппетов из ПС Спутник.

data_parsing2.jpg

Вся соль шаблона зашита OwnCodeUsings
Приятного изучения! )

P.S.
Хочу выразить благодарность разработчикам и обитателям этого форума! Благодаря Вам я могу постигать всю прелесть, силу и красоту ZennoPoster!
 

Вложения

Для запуска проектов требуется программа ZennoPoster.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте программу ZennoPoster. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

Последнее редактирование:

serjik777

Client
Регистрация
18.10.2015
Сообщения
16
Благодарностей
9
Баллы
3
Для меня оказалось познавательно
 
  • Спасибо
Реакции: barkasian

kerteis

Новичок
Регистрация
29.11.2015
Сообщения
7
Благодарностей
0
Баллы
1
Ребят, подскажите что нужно настроить что бы работал шаблон?
Добавил ключи, запускаю => проект выполнен с ошибкой (и гугл и спутник)
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
128
Благодарностей
125
Баллы
43
Ребят, подскажите что нужно настроить что бы работал шаблон?
Добавил ключи, запускаю => проект выполнен с ошибкой (и гугл и спутник)
Скрин ошибок выложи
Я сейчас скачал с форума свой шаб и запустил. Сработало все на ок.
screen.jpg
 
Последнее редактирование:

kerteis

Новичок
Регистрация
29.11.2015
Сообщения
7
Благодарностей
0
Баллы
1
Вот в лог
2018-02-23 09:38:48.9375|WARN|ZennoLab.LogLibrary.InternalError|Ошибка в модуле "Компиляция кода проекта"
Сообщение: "Ошибка при компиляции общего кода "CS0117" "'ZennoLab.Macros.TextProcessing' не содержит определение для 'Trim'". [Строка: 111; Cтолбец: 50]"
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
128
Благодарностей
125
Баллы
43
Вот в лог
2018-02-23 09:38:48.9375|WARN|ZennoLab.LogLibrary.InternalError|Ошибка в модуле "Компиляция кода проекта"
Сообщение: "Ошибка при компиляции общего кода "CS0117" "'ZennoLab.Macros.TextProcessing' не содержит определение для 'Trim'". [Строка: 111; Cтолбец: 50]"
Какая версия ZennoPoster у вас?
В случае чего в общем коде (OwnCodeUsings) 111 строку замените
Код:
string snip = ZennoLab.Macros.TextProcessing.Trim(rxMatch.Value, "Full");

на

string snip = rxMatch.Value;
 

kerteis

Новичок
Регистрация
29.11.2015
Сообщения
7
Благодарностей
0
Баллы
1
5.9.9.1
Ошибка исчезла, но появилась другая,
2018-02-23 10:20:18.1093|Error in Manager.DumpFiles.ListLastActivityTime: Path=C:\keyms.txt, Count=5, Separator=
, Synchronize=True, IsChanged=False, IsDeleted=False, IsRefreshed=False|System.NullReferenceException: Ссылка на объект не указывает на экземпляр объекта.
в ZennoLab.FileManager.Manager.DumpFiles()
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
128
Благодарностей
125
Баллы
43
В шаблон внесены изменения: переписан класс парсеров, с целью увлечения скорости и стабильности работы в многопотоке
См. стартовый пост.
 
Регистрация
13.04.2016
Сообщения
465
Благодарностей
18
Баллы
18
Это шутка такая? что с этим шаблоном делать?
Зачем вообще выкладывать только кусок недоделанного шаблона?
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
128
Благодарностей
125
Баллы
43
Это шутка такая? что с этим шаблоном делать?
Зачем вообще выкладывать только кусок недоделанного шаблона?
Я дал Вам удочку. Что с ней делать - решает каждый для себя сам.
Этот "недоделанный шаблон" - он только в Вашей голове...
 
  • Спасибо
Реакции: tim.go
Регистрация
13.04.2016
Сообщения
465
Благодарностей
18
Баллы
18
Я дал Вам удочку. Что с ней делать - решает каждый для себя сам.
Этот "недоделанный шаблон" - он только в Вашей голове...
Это всё равно что подарить ребёнку колёса от машинки, вместо машинки...
-Подростёшь сынок и сам решишь что это будет, - может машинка, может автобус, а может и бмп соберёшь со временем;
Вобщем сынок я тебе сделал подарок, а ты уже сам решишь что из него получится))
 
  • Спасибо
Реакции: Szerzs
Регистрация
27.12.2016
Сообщения
742
Благодарностей
151
Баллы
43
а кол-во урлов как-то можно регулировать ?
А то по фразе телефон 48 шт нашел всего
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
128
Благодарностей
125
Баллы
43
Регистрация
27.12.2016
Сообщения
742
Благодарностей
151
Баллы
43

barkasian

Client
Регистрация
03.12.2014
Сообщения
128
Благодарностей
125
Баллы
43
в большую
Вот мне надо допусти 500-1000 шт как это сделать? и то бы они не были одинаковыми
Запрос к Гугл картинкам идет через get и данные берутся с "первого экрана". Если требуется больше картинок то тут наверно только через браузер с прокруткой
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 075
Благодарностей
2 735
Баллы
113
в большую
Вот мне надо допусти 500-1000 шт как это сделать? и то бы они не были одинаковыми
Запрос к Гугл картинкам идет через get и данные берутся с "первого экрана". Если требуется больше картинок то тут наверно только через браузер с прокруткой
https://www.google.ru/search?tbs=isz:lt,islt:vga,itp:photo,ift:jpg&tbm=isch&q=&asearch=ichunk&as_q=keyword&ijn=0
где параметры:
tbs - фильтр;
as_q - поисковый запрос;
ijn - номер страницы (от нуля до хз скольки)) ).

По ссылке отдаётся чистый JSON без лишнего мусора, в отличие от ссылки использованной в шаблоне, соответственно увеличивается скорость и уменьшается трафик.

Регулярка для парсинга ссылок на картинки:
Код:
(?<=\\\"ou\\\":\\\").*?(?=\\\")
Ссылки парсятся с экранированными слэшами, поэтому непосредственно во время парсинга либо после, нужно делать замену \/ на / и \\ на \ (или по регулярке \\(?=[^\\]) на пустоту)
 

Roman*

Client
Регистрация
25.09.2013
Сообщения
1 489
Благодарностей
533
Баллы
113
Благодарю, за шаблон, как раз во-время, быстро и эффективно парсит картинки.
 
Последнее редактирование:

Hazar

Client
Регистрация
05.12.2018
Сообщения
103
Благодарностей
18
Баллы
18
Запрос к Гугл картинкам идет через get и данные берутся с "первого экрана". Если требуется больше картинок то тут наверно только через браузер с прокруткой
А где могут понадобиться урлы картинок? Сами картинки не парсяться?
 

spbalexpiter

Client
Регистрация
24.11.2013
Сообщения
183
Благодарностей
15
Баллы
18
не работает, точнее код исполняется за секунду, но результата нет
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
128
Благодарностей
125
Баллы
43
не работает, точнее код исполняется за секунду, но результата нет
Салют, что именно не работает?
Сейчас скачал шаблон с первого поста и запустил. Сниппеты для Гугла и Спутника отработали как следует.
 
Регистрация
10.07.2017
Сообщения
15
Благодарностей
0
Баллы
1
Спасибо, что поделились. Я люблю учиться рыбачить.
 

tim.go

Client
Регистрация
29.11.2019
Сообщения
88
Благодарностей
7
Баллы
8
Привет, друзья!
В рамках конкурса хочу с Вами поделиться своим шаблоном, в которых Вы сможете увидеть как с помощью нескольких строк в визуальном кубике C#-коде, можно получить список урлов картинок с Гугл по Вашему ключевику.

В качестве бонуса, предлагается кубик (так же в несколько строк) для сбора сниппетов из ПС Спутник.

Посмотреть вложение 27440

Вся соль шаблона зашита OwnCodeUsings
Приятного изучения! )

P.S.
Хочу выразить благодарность разработчикам и обитателям этого форума! Благодаря Вам я могу постигать всю прелесть, силу и красоту ZennoPoster!
Подскажите пожалуйста, при парсинге выдает, что ни одного фото не найдено, как это можно поправить?

P.S пробовал кучу разных запросов, на них точно есть фото
 

dima8121

Client
Регистрация
09.09.2018
Сообщения
7
Благодарностей
0
Баллы
1
Подскажите пожалуйста, при парсинге выдает, что ни одного фото не найдено, как это можно поправить?

P.S пробовал кучу разных запросов, на них точно есть фото
Такая же ерунда.
 

barkasian

Client
Регистрация
03.12.2014
Сообщения
128
Благодарностей
125
Баллы
43
Подскажите пожалуйста, при парсинге выдает, что ни одного фото не найдено, как это можно поправить?

P.S пробовал кучу разных запросов, на них точно есть фото
Такая же ерунда.
Гугл стал кодировать путь картинки в base64
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)