Шаблон для конвертирования PDF в JPG. Получаем уникальный контент.

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
289
Благодарностей
92
Баллы
28
Приветствую всех!

Данный шаблон будет выполнять две задачи:
1) Конвертировать PDF в картинку в формате JPG (с помощью сторонней программы)
2) Заливать картинку на сервис Яндекса https://translate.yandex.ru/ocr для распознавания текста с картинки.

Можно было конечно не конвертировать PDF в картинку и использовать для распознавания сервис Google (https://support.google.com/drive/answer/176692?co=GENIE.Platform=Desktop&hl=ru),
но там есть ограничение: в PDF документе будут обработаны только первые 10 страниц.

Итак первое что нужно сделать это скачать программу 2jpeg-free с офицального сайта https://www.2jpeg.com/download
Ограничение на ее использование это копирайт в конце каждой картинки: Created by 2JPEG www.2jpeg.com (будем заменять кубиком в шаблоне)
Установить и запомнить путь до исполняемого файла, в моей системе он такой C:\Program Files (x86)\2JPEG\2jpeg.exe
Если у вас путь до файла отличается, то пропишите его в первом кубике в этом поле:

1.png

Во втором поле будут прописаны параметры запуска:
-src "{-Project.Directory-}pdf\vinni-puh-i-vse-vse-vse.pdf" -dst "{-Project.Directory-}jpg" -oper Rasterize res:300 -oper Resize size:"1024 1024" -jpeg mode:progressive bpp:8 quality:75 subsampling:422 opthuff:yes

2.png

Коротко о них:
-src - Исходная папка файла для конвертации. Для обработки списка файлов, сохраните его как текстовый файл и используйте '@' перед путем к файлу.
-dst - Путь к папке назначения.
-oper - имя операции обработки изображения с параметрами. По умолчанию пусто.
-options - Общие параметры с параметрами. По умолчанию пусто.

Подробнее на сайте https://www.2jpeg.com/overview/2jpeg-command-line-syntax

Чем больше страниц в пдф файле тем больше нужно выставлять таймаут выполнения, по умолчанию 10, я установил 120 для файла из 152 страниц.

3.png

На этом с настройкой все.
Закидываем пдфку в папку pdf, запускаем шаблон.
По умолчанию будет переводится c русского языка на украинский.
Готовые картинки будут сохранятся в папку jpg.
Файлы с текстами будут сохранятся в папку txt, в подпапки "оригинальный текст" и "переведенный текст".

Один нюанс, после запуска выскочит такое окошко в нем нужно будет нажать на клавишу 1 как там просят.

4.png

Пример получения уникального (когда то) контента и сайтов использовавших его:
Идем например на сайт https://books.google.ru/
Вбиваем в поиск например слово "автомобіль" на украинском языке.
Я выбрал там одно из пособий: Сто і одна порада водію-початківцю
Перевел одну из страниц: Як вибрати автомобільні шини
Взял переведенный текст и в поиске Яндекса нашел сайт который его уже использовал: niknews.mk.ua/2018/08/28/kak-vybrat-avtomobilnye-shiny/

Для каких целей шаблон:
Возможно вам нужно перепечатать текст из пдф? Но лень.
Для получения контента, уникального и не очень (для ДДЛ или просто дорвеев).
Напишите свой вариант в комментарии :-)

Скачать шаблон
Архив с шаблоном не прикрепляется, залил сюда https://cloud.mail.ru/public/2Zuk/4caGkMk6V
 
Категория
Генерация

Для запуска проектов требуется программа ZennoPoster.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте программу ZennoPoster. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

Последнее редактирование модератором:

lederer

Client
Регистрация
13.04.2013
Сообщения
95
Благодарностей
46
Баллы
18
Можно еще подключить AutoIT либо через WinApi сделать ввод значений в CMD, дабы совсем ничего не нажимать)
 
  • Спасибо
Реакции: vertigo141

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
289
Благодарностей
92
Баллы
28
Наверное можно, ни разу не работал с WinApi.
 

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
289
Благодарностей
92
Баллы
28
На самом деле решений много, есть и библиотеки на C# но те что я находил платные.
 

seoshnek

Client
Регистрация
08.03.2010
Сообщения
62
Благодарностей
20
Баллы
8
Вообще ghostscript - открытый софт для работы с pdf-ками. А вот здесь можно найти кучу оберток для него.
 

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
289
Благодарностей
92
Баллы
28

melutsk

Client
Регистрация
03.08.2016
Сообщения
452
Благодарностей
92
Баллы
28
Так pdf и текст в нем пс нормально индексирует, смысл? Или речь про уник переводной текст?
 

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
289
Благодарностей
92
Баллы
28
Мне попадались пдфки с текстом который в ПС не находись.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)