Дёшево размечаем тонны данных на полном автомате, используя живую силу с сервиса разгадывания капч

arhip1985

Client
Регистрация
31.10.2011
Сообщения
2 955
Благодарностей
781
Баллы
113
Одним из главных факторов успешности обучения ИИ — является хорошо размеченная и большая база с данными для обучения и тестирования обученности. Для некоторых задач, собрать базу, не такая уж и проблема, а вот на разметку потребуется либо много своего монотонно проведённого времени, либо много денег.
Например, была задача: собрать данные о HtmlElement, в которых содержится цена на товар в интернет магазинах, о его родителе, о его структурном расположении в теле страницы, о его текстовом содержимом и другие параметры, которые можно будет скормить для обучения, с целью определения на любой странице Х — есть цена или нет и в каком HtmlElement она содержится. Если знать где этот элемент (координаты (х, у)) в теле страницы, то все остальные данные можно легко получить с помощью автоматизации браузера.
Собирать xpath элементов с десяти тысяч страниц в ручном режиме — то ещё занятие… Лёгкие пути, в просмотре обзоров готового софта — искать было лень, но периодически работая с капча сервисами, пришла идея — а что если всю эту работу поручить на капча сервис, в котором есть живые исполнители. Выбор пал на сервис rucaptcha(ru)/2captcha(en) - кликать по картинкам там стоит около 160 руб за 1 тыс шт.
Что в итоге получилось, можно посмотреть на видео.
В софт добавляется csv файл с названиями картинок или текстовыми вопросами, картинка инструкция или текстовое задание, далее картинки приводятся к принимаемому капча сервисом размеру и отправляются в сервис. На выходе получаем файл с координатами (при выборе текстового ответа — файл с текстовыми ответами) и папку с изображениями в изменённых размерах. Далее нам остаётся только спроецировать координаты с уменьшенного изображения на реальный холст (в задаче из примера с поиском HtmlElement).
Данный софт без каких-либо сверхъестественных способностей, т.к. создавался для себя под определённые задачи и предлагается к использования — бесплатно, скачать можно тут.
 

Для запуска проектов требуется программа ZennoPoster.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте программу ZennoPoster. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

arhip1985

Client
Регистрация
31.10.2011
Сообщения
2 955
Благодарностей
781
Баллы
113
автоматически вырезаем лицо Гарри Поттера со всех изображений и приводим к единому размеру
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)