Введение и краткое описание

Это архивная статья.

Так же рассмотрите наш сервис CapMonster Cloud с возможностью создания собственных (отдельных от CM2) модулей.
Подробная инструкция: Создание пользовательского модуля.

Module Creation Studio

Данный инструмент позволяет Вам создавать свои собственные модули, для распознавания каптч, которые уже можно использовать в CapMonster2.

Технологии, использующиеся в новой версии CapMonster2 сильно отличаются от прошлой версии, поэтому этапы обучения могут показаться сложными и непонятными на первый взгляд. Мы постараемся в этих статьях объяснить всё как можно более подробно, всё в текстовом виде и более просто, на примерах в видео. Но, если у Вас останутся вопросы после прочтения, пожалуйста, задавайте их нам на форуме, мы поможем и обязательно дополним эти статьи исходя из Вашей обратной связи. Итак, начнём.

Скачать последнюю версию CapMonster2 MCS x64 можно тут.

Создание своего модуля распознавания

Создание Вашего собственного модуля распознавания делится на несколько шагов.

Здесь мы приведём только краткое описание каждого шага и ссылку на более подробное описание.

Если что-то будет не понятно, лучше спросите на форуме в разделе программы. Иначе может получиться, что Вы попусту потратите время на бесполезную работу.

Создание проекта

Необходимо открыть программу, создать новый проект, сохранить его под понятным Вам названием.

Далее добавить в проект каптчи, для которых необходимо создать модуль распознавания. Сохранить.

Чтобы дальше работать с этими каптчами, они должны быть распознаны и, желательно, со 100%-ой достоверностью.

Этап 1. Создание проекта и сбор каптч.

Сбор символов

Распознавание каптч - это, по сути, распознавание символов, которые на ней написаны, т.е. необходимо обучить модуль распознавать символы. А чтобы научить модуль распознавать символы, эти символы нужно собрать.

Сбор осуществляется вручную: необходимо кликнуть мышью в центр символа.

Этап 2. Сбор символов.

Настройка фильтров

Существенно повысить распознавание можно применив к каптче обычные графические фильтры.

Например, можно увеличить контрастность или выделить какой-то один цвет.

Самое полезное - увеличить каптчу с мелкими символами для лучшего распознавания и уменьшить каптчу с крупными символами для более быстрой работы модуля.

Этап 3. Фильтры.

Настройка поиска центров масс

Как уже упоминалось ранее, распознавание каптч - это распознавание символов на ней, но прежде чем распознать символ, его необходимо найти. Искать символ необходимо в специальных точках - потенциальных центрах символов.

В этом же месте выбирается размер окна распознавания символа - прямоугольная область, в которую поместится самый большой представитель символов.

Этап 4. Центры масс.

Обучение модуля

Когда все ресурсы подготовлены и основные настройки произведены, необходимо приступать к обучению модуля.

Сначала необходимо настроить сложность ядра в зависимости от того, насколько сильно бывают искажены символы. Сложное ядро - это большой процент распознавания за долгое время работы и наоборот, простое ядро - модуль с меньшим процентом распознавания, но работающий значительно быстрее.

После настройки сложности ядра необходимо настроить процесс самого обучения.

Чем быстрее обучение, тем хуже качество полученного модуля.

Обучение - самая долгая часть создания модуля и может растянуться в особо сложных случаях на сутки.

Этап 5. Обучение модуля.

Тест распознавания и повышение качества модуля

После обучения необходимо протестировать готовый модуль.

Во время обучения он тоже будет постоянно тестироваться и процент распознавания будет виден сразу во время обучения. Смысл этого шага - подбор простых, но важных параметров и проверка не улучшиться ли при этом процент распознавания уже готового модуля.

Так же, на этом этапе Вы сможете найти основные причины ошибок распознавания и попробовать их устранить.

Этап 6. Тестирование и улучшение.

Импорт готового модуля распознавания

Module Creation Studio только обучает модули и хранит их вместе с каптчами и другой, не нужной для непосредственного распознания каптч информацией. Поэтому, после того, как модуль обучен, его необходимо сохранить в соответствующем формате, который понимает CapMonster2. Он-то и будет принимать и распознавать каптчи вместо сервисов ручного распознавания.

Когда работа по созданию модуля завершена и процент распознавания Вас удовлетворяет, необходимо в режиме «Тестирование модуля» кликнуть на «Сохранить» и указать путь, куда сохраниться Ваш собственный готовый модуль. В итоге Вы получите готовый модуль распознавания, который потом можете добавить в CapMonster2.

Этап 7. Сохранение.