Можно ли спарсить картинки без надписей?

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 943
Благодарностей
4 337
Баллы
113
Имеется словарь из более чем 8 000 простых слов существительных и мне нужно с гугла или бинга спарсить ТОП 10 выдачи картинок по этим словам, но так чтобы на картинке не было крупных надписей. То есть всякие демотиваторы или открытки не подходят.
Например, слово "независимость". Почти все нормально, а вот это http://demotivators.to/media/posters/2337/69612_nezavisimost.jpg не катит.
Такое возможно?
 

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 223
Баллы
113
На мой взгляд - маловероятно. Грубое решение возможно, но все что связано с тем или иным распознаванием содержимого изображения потребует как минимум запуска стороннего софта. Если вы найдете простой алгоритм, то его реализация не должна вызвать затруднений.
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 943
Благодарностей
4 337
Баллы
113

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 223
Баллы
113
В данном случае под грубым решением подразумевается некий простой алгоритм позволяющий решать задачу опираясь на простые критерии. Например, отбирая изображения по размеру, или сверяться с черным списком доменов.
 
  • Спасибо
Реакции: Astraport

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 943
Благодарностей
4 337
Баллы
113

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 223
Баллы
113

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 943
Благодарностей
4 337
Баллы
113
Ну по размеру картинки с надписями точно не отфильтровать.
Насчет доменов, то да - хорошая идея. Даже черных списков не нужно. Просто в запросе поставить в минус слова всякие -демотиваторы -demotivatots и т. д. Уже треть будет отсеяно.
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 943
Благодарностей
4 337
Баллы
113
Кстати, в комплекте с Зенно идет шаблон парсинга по Бингу и что-то он не работает у меня.
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
891
Баллы
113
Отсеять именно демотиваторы довольно легко, а вот вообще надписи на картинке - это боюсь ппц как сложно))) т.к. это уже даже не просто текст с изображения (надписи на заборе на фотографии) а это надо распознавать объекты и прикидывать вероятность того что это ватермарк.
Хотя чисто теоретически можно скачать все фотографии а потом попробовать выявить на них шаблоны, т.е. вотермарки то везде одинаковые... но тут тоже все сложно ибо все белые футболки тоже будут идти как шаблон...
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 707
Баллы
113
Кстати, в комплекте с Зенно идет шаблон парсинга по Бингу и что-то он не работает у меня.
верстка может поменялась. логика для примера подойдет. если очень нужно - просто запустите в PM и поправьте экшен который выдает ошибку.
если не сможете, задайте вопрос - помогу
 

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 233
Благодарностей
5 846
Баллы
113
Имеется словарь из более чем 8 000 простых слов существительных и мне нужно с гугла или бинга спарсить ТОП 10 выдачи картинок по этим словам, но так чтобы на картинке не было крупных надписей. То есть всякие демотиваторы или открытки не подходят.
Например, слово "независимость". Почти все нормально, а вот это http://demotivators.to/media/posters/2337/69612_nezavisimost.jpg не катит.
Такое возможно?
Обрезку картинки делать, как вариант, надписи обычно по краям. В новом билде постера будет экшн обработки изображений.
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 943
Благодарностей
4 337
Баллы
113
На лету обрезать затратно по времени. Хранить на серверах затратно в плане места (8000 * 8 * 100-500 кБ), но это мелочи, правообладатели могут предъявить, а подгружать как результаты поиска вроде бы можно.
 

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 233
Благодарностей
5 846
Баллы
113

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 943
Благодарностей
4 337
Баллы
113
Все это хорошо, но на лету распознавать не получится.
Открывая эту тему я немного надеялся, что может быть есть в API гугла какой-то известный параметр про эти надписи, может быть и недокументированный. Только это мне поможет.
Ведь есть у него фильтры для adult-картинок и другого содержимого.
 

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 233
Благодарностей
5 846
Баллы
113
Все это хорошо, но на лету распознавать не получится.
Открывая эту тему я немного надеялся, что может быть есть в API гугла какой-то известный параметр про эти надписи, может быть и недокументированный. Только это мне поможет.
Ведь есть у него фильтры для adult-картинок и другого содержимого.
Это надо у гугла спрашивать)
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)