Шаблон для конвертирования PDF в JPG. Получаем уникальный контент.

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
404
Благодарностей
155
Баллы
43
Приветствую всех!

Данный шаблон будет выполнять две задачи:
1) Конвертировать PDF в картинку в формате JPG (с помощью сторонней программы)
2) Заливать картинку на сервис Яндекса https://translate.yandex.ru/ocr для распознавания текста с картинки.

Можно было конечно не конвертировать PDF в картинку и использовать для распознавания сервис Google (https://support.google.com/drive/answer/176692?co=GENIE.Platform=Desktop&hl=ru),
но там есть ограничение: в PDF документе будут обработаны только первые 10 страниц.

Итак первое что нужно сделать это скачать программу 2jpeg-free с офицального сайта https://www.2jpeg.com/download
Ограничение на ее использование это копирайт в конце каждой картинки: Created by 2JPEG www.2jpeg.com (будем заменять кубиком в шаблоне)
Установить и запомнить путь до исполняемого файла, в моей системе он такой C:\Program Files (x86)\2JPEG\2jpeg.exe
Если у вас путь до файла отличается, то пропишите его в первом кубике в этом поле:

1.png

Во втором поле будут прописаны параметры запуска:
-src "{-Project.Directory-}pdf\vinni-puh-i-vse-vse-vse.pdf" -dst "{-Project.Directory-}jpg" -oper Rasterize res:300 -oper Resize size:"1024 1024" -jpeg mode:progressive bpp:8 quality:75 subsampling:422 opthuff:yes

2.png

Коротко о них:
-src - Исходная папка файла для конвертации. Для обработки списка файлов, сохраните его как текстовый файл и используйте '@' перед путем к файлу.
-dst - Путь к папке назначения.
-oper - имя операции обработки изображения с параметрами. По умолчанию пусто.
-options - Общие параметры с параметрами. По умолчанию пусто.

Подробнее на сайте https://www.2jpeg.com/overview/2jpeg-command-line-syntax

Чем больше страниц в пдф файле тем больше нужно выставлять таймаут выполнения, по умолчанию 10, я установил 120 для файла из 152 страниц.

3.png

На этом с настройкой все.
Закидываем пдфку в папку pdf, запускаем шаблон.
По умолчанию будет переводится c русского языка на украинский.
Готовые картинки будут сохранятся в папку jpg.
Файлы с текстами будут сохранятся в папку txt, в подпапки "оригинальный текст" и "переведенный текст".

Один нюанс, после запуска выскочит такое окошко в нем нужно будет нажать на клавишу 1 как там просят.

4.png

Пример получения уникального (когда то) контента и сайтов использовавших его:
Идем например на сайт https://books.google.ru/
Вбиваем в поиск например слово "автомобіль" на украинском языке.
Я выбрал там одно из пособий: Сто і одна порада водію-початківцю
Перевел одну из страниц: Як вибрати автомобільні шини
Взял переведенный текст и в поиске Яндекса нашел сайт который его уже использовал: niknews.mk.ua/2018/08/28/kak-vybrat-avtomobilnye-shiny/

Для каких целей шаблон:
Возможно вам нужно перепечатать текст из пдф? Но лень.
Для получения контента, уникального и не очень (для ДДЛ или просто дорвеев).
Напишите свой вариант в комментарии :-)

Скачать шаблон
Архив с шаблоном не прикрепляется, залил сюда https://cloud.mail.ru/public/2Zuk/4caGkMk6V
 
Категория
Другое
Номер конкурса шаблонов
Четвертый конкурс шаблонов
Уровень сложности
Лёгкий

Для запуска проектов требуется программа ZennoPoster или ZennoDroid.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте нужную программу. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

Последнее редактирование модератором:

lederer

Client
Регистрация
13.04.2013
Сообщения
168
Благодарностей
84
Баллы
28
Можно еще подключить AutoIT либо через WinApi сделать ввод значений в CMD, дабы совсем ничего не нажимать)
 
  • Спасибо
Реакции: vertigo141

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
404
Благодарностей
155
Баллы
43
Наверное можно, ни разу не работал с WinApi.
 

Err0r

Client
Регистрация
17.05.2015
Сообщения
156
Благодарностей
109
Баллы
43
Можно imagemagick использовать, там ничего нажимать ненужно.
 

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
404
Благодарностей
155
Баллы
43
На самом деле решений много, есть и библиотеки на C# но те что я находил платные.
 

seoshnek

Client
Регистрация
08.03.2010
Сообщения
101
Благодарностей
47
Баллы
28
Вообще ghostscript - открытый софт для работы с pdf-ками. А вот здесь можно найти кучу оберток для него.
 

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
404
Благодарностей
155
Баллы
43

seoshnek

Client
Регистрация
08.03.2010
Сообщения
101
Благодарностей
47
Баллы
28

melutsk

Client
Регистрация
03.08.2016
Сообщения
1 345
Благодарностей
1 256
Баллы
113
Так pdf и текст в нем пс нормально индексирует, смысл? Или речь про уник переводной текст?
 

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
404
Благодарностей
155
Баллы
43

melutsk

Client
Регистрация
03.08.2016
Сообщения
1 345
Благодарностей
1 256
Баллы
113

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
404
Благодарностей
155
Баллы
43
Мне попадались пдфки с текстом который в ПС не находись.
 

melutsk

Client
Регистрация
03.08.2016
Сообщения
1 345
Благодарностей
1 256
Баллы
113

искра

Client
Регистрация
07.06.2014
Сообщения
278
Благодарностей
23
Баллы
18
а есть еще сервисы которые распознают текст с такой же точностью как https://translate.yandex.ru/ocr ? не считая ocr от гугл
 

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
404
Благодарностей
155
Баллы
43
Не искал альтернатив, в яндекс не походит?
 

искра

Client
Регистрация
07.06.2014
Сообщения
278
Благодарностей
23
Баллы
18

искра

Client
Регистрация
07.06.2014
Сообщения
278
Благодарностей
23
Баллы
18
Можно imagemagick использовать, там ничего нажимать ненужно
можете подсказать как в imagemagick конвертировать pdf в картинку? через гугл искал ответ, но при использовании кода оттуда выдает ошибку
 

viktor045

Client
Регистрация
02.09.2018
Сообщения
67
Благодарностей
17
Баллы
8

garikn

Client
Регистрация
03.08.2021
Сообщения
87
Благодарностей
11
Баллы
8
пдф в текст хорошо через Ворд 2016 переводить.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)