Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Лучшие программы для распознавания текста. Рейтинг OCR.

Лучшие программы для распознавания текста. Рейтинг OCR.

Сообщение Grolribasi » Пн окт 29, 2018 14:06

Какими вы пользуетесь? Я тестировал, собственно, программу от создателей формата PDF - Adobe Acrobat DC и четыре онлайн сервиса: Free Online OCR, TransPDF, NewOCR, Img2txt

Испытывал на следующих документах:
1. Всем привет.pdf Самодельный документ “8 бесплатных аналогов платных программ”. Здесь ничего сложного - текст был написан в ворде, затем переведён в пдф. Сложность может представлять надпись нестандартным шрифтом, мелкие буквы, а также текст на эмблеме канала.
2. Всем привет-IMG.pdf Тот же фрагмент, но без текстового слоя - простое изображение, завёрнутое в пдф. Сложности те же, только к ним ещё добавляется необходимость распознавания всего остального текста и сохранения форматирования.
3. Bravoil.pdf Рекламная брошюра, полученная от представителя компании. Ничего конфиденциального. И хоть с первого взгляда она кажется простой, распознать её довольно трудно.

Начал с авторитета - Adobe Acrobat DC

Первый файл. Всем привет.docx Ожидаемо. Никаких трудностей. Полная конвертация в редактируемый формат. Однако, изображение почему-то программа решила не распознавать.
Второй файл. Всем привет-IMG.docx Результат неплохой. Кончено, нестандартный шрифт не распознался, но мелкий шрифт под звёздочкой распознался достаточно хорошо. Отлично.
Файл номер 3. Bravoil.docx Выглядит неплохо, но не редактируется.

Я пытался взять на тест больше программ для ПК. Но, оказывается, что для ПК доступны лишь несколько “невероятно крутых” программ, которые распознают только изображения или устанавливают на компьютер мусор. Я пробовал: Free OCR, Simple OCR, CuneiForm OCR, Freemore OCR, Abbyy не пробовал, но она платная и очень дорогая.

К онлайн-сервисам.
Free Online OCR.
По умолчанию при регистрации сервис даёт около 30 бесплатных страниц, остальные нужно докупать. Но спасибо создателям сайта за то, что при регистрации не нужно подтверждать свою почту. Каждый раз, когда страницы заканчиваются можно просто вводить “новые” имейл,и логин, добавляя к старым новую цифру. Это делает сервис почти полностью бесплатным, что не может не радовать.

Файл 1. Всем привет-FOC.docx Хороший результат. Но отнюдь не идеальный. Есть непонятные символы, картинка искажена, но в целом допустимо.
Файл 2. Всем привет-IMG-FOC.docx Результат распознавания с картинки выглядит лучше, чем простая конвертация пдф в ворд. Снова хороший результат.
Файл 3. Bravoil-FOC.docx Сервис справился с распознаванием и этого документа! Удивительно, но факт. Опять же, есть некоторые недочёты, но это результат, и если в ваши обязанности не входит вёрстка, то это именно то, что вам нужно.

NewOCR. Нашёл в одной из статей про лучшие сервисы распознавания символов на просторах интернета. Говорят, что сервис хороший.

Файл 1. Всем привет-newocr.doc Текст распознался хорошо, качественно, но картинку сервис вообще куда-то съел. Непорядок.
Файл 2. Всем привет-IMG-newocr.doc Что-то пошло не так. Целую половину документа съел. А это всего лишь одностраничный документ с простым форматированием и одной картинкой.
Файл 3. Большой файл сначала долго загружался, а потом предложил мне скачать обрубок первой страницы в формате докBravoil-newocr.doc или весь документ в формате txt Bravoil-newocr.txt. Зачем мне нужно вот это? Это во-первых нечитабельно, а во-вторых совершенно лишено форматирования и каких-либо картинок. Это совершенно неприемлемый результат.

transpdf.
Этот сервис по умолчанию платный, но он становится почти бесплатным, если вы пользуетесь MemoQ. В итоге мы получаем не просто распознанный док файл, а развёрстанный файл для перевода.
Файл 1. Vsem_privet_(ru_to_en).xlf С текстовым слоем проблем нет, всё качественно. Ну, может, кроме картинки.
Файл 2. Vsem_privet-IMG-ocr_(ru_to_en).xlfХорошо, но беда с латиницей, спрятанной среди кириллицы. Однако, это единственный сервис, распознавший нестандартный шрифт.
Файл 3. 001_Bravoil_Ind_(en_to_ru).xlf Не очень хорошо, распознание есть, но примерно на уровне Adobe Acrobat, то есть далеко не полностью.

Сервис Img2txt. Нашёл его где-то на просторах интернета в комментариях к статье о лучших сервисах.
Файл 1. DL_Task_2900060_img2txt.com.docx Очень криво.
Файл 2. DL_Task_2748257_img2txt.com.docx Слишком долгое ожидание обработки, но результат неплохой. Если вас не волнует расположение букв в слове и вообще слова. Много ошибок, но распознание есть.
Файл 3. Этот файл полностью распознать не удалось, потому что максимальный объём файла для распознания этим сервисом - 8 мб. Я взял несколько страниц из документа Страницы из Bravoil.pdf, но результат ужасен. DL_Task_2900069_img2txt.com.docx Мягко говоря.

Вот итоговая таблица с результатами рейтинга - http://funkyimg.com/i/2MAHf.png

А чем вы пользуетесь для распознавания символов?

Весь рейтинг в одном видео здесь.
Аватара пользователя
Grolribasi

 
Сообщения: 5
Зарегистрирован: Ср окт 24, 2018 18:02
Откуда: Эфир
Язык(-и): Английский, Русский





Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Сообщение Uncle A » Пн окт 29, 2018 17:14

Grolribasi писал(а):Abbyy не пробовал, но она платная и очень дорогая.

С середины 90-х годов пользуюсь для этой цели Файнридером. Давным-давно купил лицензию. Не знаю, как сейчас, но тогда цена была вполне подъемной.
CuneiForm не развивается уже лет пятнадцать.
Я больше не принимаю участия в работе форума ГП. Если кому-то вдруг понадоблюсь, со мною можно связаться через личное сообщение.
Аватара пользователя
Uncle A
Дядюшка
 
Сообщения: 7556
Зарегистрирован: Пн окт 06, 2008 15:39
Откуда: Москва
Блог: Просмотр блога (18)
Язык(-и): английский-русский

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Сообщение Руст » Вт окт 30, 2018 13:00

Файнридер сейчас стоит около семи тысяч, не так уж и дорого, если сканировать приходится много и регулярно. Попробовать ее точно можно бесплатно — в течение 30 дней.
Переводчиком нужно или быть или не быть вообще! ©
Аватара пользователя
Руст

 
Сообщения: 730
Зарегистрирован: Вт авг 30, 2005 10:54
Язык(-и): Английский - русский

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Сообщение Grolribasi » Ср окт 31, 2018 16:47

Руст
7 000 я бы лучше на что-то ещё потратил, когда есть хорошие бесплатные аналоги.
Аватара пользователя
Grolribasi

 
Сообщения: 5
Зарегистрирован: Ср окт 24, 2018 18:02
Откуда: Эфир
Язык(-и): Английский, Русский

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Сообщение rms » Пт ноя 02, 2018 12:01

Для многих переводчиков загружать клиентские документы в какие угодно сервисы в принципе неприемлемо.

Grolribasi писал(а):7000 я бы лучше на что-то ещё потратил, когда есть хорошие бесплатные аналоги.


Каждому свое.
Что такое "хорошие"? Вообще, что такое "текст распознался хорошо"? Здесь есть измеряемые показатели, самый интересный из которых - время, затрачиваемое на ручную доработку. Если инструмент экономит время (сколько?), то его купят.
If you don't find a way to make money while you sleep, you will work until you die.
Аватара пользователя
rms

 
Сообщения: 1892
Зарегистрирован: Вс ноя 26, 2006 05:06
Откуда: 95% ภูเก็ต / 5% СПб

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Сообщение Uncle A » Пт ноя 02, 2018 16:00

Grolribasi писал(а):когда есть хорошие бесплатные аналоги
. Кто их знает, насколько они хорошие. Работать всегда лучше своим инструментом.
ВИСКИ The Irishman 12 YO Single Malt, 0.7 л - 7 240 РУБ
Изображение
Я больше не принимаю участия в работе форума ГП. Если кому-то вдруг понадоблюсь, со мною можно связаться через личное сообщение.
Аватара пользователя
Uncle A
Дядюшка
 
Сообщения: 7556
Зарегистрирован: Пн окт 06, 2008 15:39
Откуда: Москва
Блог: Просмотр блога (18)
Язык(-и): английский-русский

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Сообщение John Gower » Чт ноя 29, 2018 22:14

По скидке же под новый год можно Файнридер и за три тысячи урвать.
Last grace of style
Аватара пользователя
John Gower

 
Сообщения: 1413
Зарегистрирован: Ср июл 21, 2010 14:09
Блог: Просмотр блога (8)
Язык(-и): en-ru, ru-en, de-ru, de-en

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Сообщение Dakiki » Пт янв 25, 2019 14:44

Google Drive для распознавания текста на фарси. Других вариантов нет...
Dakiki

 
Сообщения: 76
Зарегистрирован: Пн фев 27, 2012 10:29
Откуда: مسکوآّباد
Язык(-и): en, ru, farsi



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Полезное программное обеспечение. Аллея Бродяги

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 8