Лучшие программы для распознавания текста. Рейтинг OCR.

**Grolribasi** » Пн окт 29, 2018 14:06

Какими вы пользуетесь? Я тестировал, собственно, программу от создателей формата PDF - Adobe Acrobat DC и четыре онлайн сервиса: Free Online OCR, TransPDF, NewOCR, Img2txt

Испытывал на следующих документах:
1. Всем привет.pdf Самодельный документ “8 бесплатных аналогов платных программ”. Здесь ничего сложного - текст был написан в ворде, затем переведён в пдф. Сложность может представлять надпись нестандартным шрифтом, мелкие буквы, а также текст на эмблеме канала.
2. Всем привет-IMG.pdf Тот же фрагмент, но без текстового слоя - простое изображение, завёрнутое в пдф. Сложности те же, только к ним ещё добавляется необходимость распознавания всего остального текста и сохранения форматирования.
3. Bravoil.pdf Рекламная брошюра, полученная от представителя компании. Ничего конфиденциального. И хоть с первого взгляда она кажется простой, распознать её довольно трудно.

Начал с авторитета - Adobe Acrobat DC

Первый файл. Всем привет.docx Ожидаемо. Никаких трудностей. Полная конвертация в редактируемый формат. Однако, изображение почему-то программа решила не распознавать.
Второй файл. Всем привет-IMG.docx Результат неплохой. Кончено, нестандартный шрифт не распознался, но мелкий шрифт под звёздочкой распознался достаточно хорошо. Отлично.
Файл номер 3. Bravoil.docx Выглядит неплохо, но не редактируется.

Я пытался взять на тест больше программ для ПК. Но, оказывается, что для ПК доступны лишь несколько “невероятно крутых” программ, которые распознают только изображения или устанавливают на компьютер мусор. Я пробовал: Free OCR, Simple OCR, CuneiForm OCR, Freemore OCR, Abbyy не пробовал, но она платная и очень дорогая.

К онлайн-сервисам.
Free Online OCR.
По умолчанию при регистрации сервис даёт около 30 бесплатных страниц, остальные нужно докупать. Но спасибо создателям сайта за то, что при регистрации не нужно подтверждать свою почту. Каждый раз, когда страницы заканчиваются можно просто вводить “новые” имейл,и логин, добавляя к старым новую цифру. Это делает сервис почти полностью бесплатным, что не может не радовать.

Файл 1. Всем привет-FOC.docx Хороший результат. Но отнюдь не идеальный. Есть непонятные символы, картинка искажена, но в целом допустимо.
Файл 2. Всем привет-IMG-FOC.docx Результат распознавания с картинки выглядит лучше, чем простая конвертация пдф в ворд. Снова хороший результат.
Файл 3. Bravoil-FOC.docx Сервис справился с распознаванием и этого документа! Удивительно, но факт. Опять же, есть некоторые недочёты, но это результат, и если в ваши обязанности не входит вёрстка, то это именно то, что вам нужно.

NewOCR. Нашёл в одной из статей про лучшие сервисы распознавания символов на просторах интернета. Говорят, что сервис хороший.

Файл 1. Всем привет-newocr.doc Текст распознался хорошо, качественно, но картинку сервис вообще куда-то съел. Непорядок.
Файл 2. Всем привет-IMG-newocr.doc Что-то пошло не так. Целую половину документа съел. А это всего лишь одностраничный документ с простым форматированием и одной картинкой.
Файл 3. Большой файл сначала долго загружался, а потом предложил мне скачать обрубок первой страницы в формате докBravoil-newocr.doc или весь документ в формате txt Bravoil-newocr.txt. Зачем мне нужно вот это? Это во-первых нечитабельно, а во-вторых совершенно лишено форматирования и каких-либо картинок. Это совершенно неприемлемый результат.

transpdf.
Этот сервис по умолчанию платный, но он становится почти бесплатным, если вы пользуетесь MemoQ. В итоге мы получаем не просто распознанный док файл, а развёрстанный файл для перевода.
Файл 1. Vsem_privet_(ru_to_en).xlf С текстовым слоем проблем нет, всё качественно. Ну, может, кроме картинки.
Файл 2. Vsem_privet-IMG-ocr_(ru_to_en).xlfХорошо, но беда с латиницей, спрятанной среди кириллицы. Однако, это единственный сервис, распознавший нестандартный шрифт.
Файл 3. 001_Bravoil_Ind_(en_to_ru).xlf Не очень хорошо, распознание есть, но примерно на уровне Adobe Acrobat, то есть далеко не полностью.

Сервис Img2txt. Нашёл его где-то на просторах интернета в комментариях к статье о лучших сервисах.
Файл 1. DL_Task_2900060_img2txt.com.docx Очень криво.
Файл 2. DL_Task_2748257_img2txt.com.docx Слишком долгое ожидание обработки, но результат неплохой. Если вас не волнует расположение букв в слове и вообще слова. Много ошибок, но распознание есть.
Файл 3. Этот файл полностью распознать не удалось, потому что максимальный объём файла для распознания этим сервисом - 8 мб. Я взял несколько страниц из документа Страницы из Bravoil.pdf, но результат ужасен. DL_Task_2900069_img2txt.com.docx Мягко говоря.

Вот итоговая таблица с результатами рейтинга - http://funkyimg.com/i/2MAHf.png

А чем вы пользуетесь для распознавания символов?

Весь рейтинг в одном видео здесь.

**Uncle A** » Пн окт 29, 2018 17:14

Grolribasi писал(а):Abbyy не пробовал, но она платная и очень дорогая.

С середины 90-х годов пользуюсь для этой цели Файнридером. Давным-давно купил лицензию. Не знаю, как сейчас, но тогда цена была вполне подъемной.
CuneiForm не развивается уже лет пятнадцать.

**Руст** » Вт окт 30, 2018 13:00

Файнридер сейчас стоит около семи тысяч, не так уж и дорого, если сканировать приходится много и регулярно. Попробовать ее точно можно бесплатно — в течение 30 дней.

**Grolribasi** » Ср окт 31, 2018 16:47

Руст
7 000 я бы лучше на что-то ещё потратил, когда есть хорошие бесплатные аналоги.

**rms** » Пт ноя 02, 2018 12:01

Для многих переводчиков загружать клиентские документы в какие угодно сервисы в принципе неприемлемо.

Grolribasi писал(а):7000 я бы лучше на что-то ещё потратил, когда есть хорошие бесплатные аналоги.

Каждому свое.
Что такое "хорошие"? Вообще, что такое "текст распознался хорошо"? Здесь есть измеряемые показатели, самый интересный из которых - время, затрачиваемое на ручную доработку. Если инструмент экономит время (сколько?), то его купят.

**Uncle A** » Пт ноя 02, 2018 16:00

Grolribasi писал(а):когда есть хорошие бесплатные аналоги

. Кто их знает, насколько они хорошие. Работать всегда лучше своим инструментом.
ВИСКИ The Irishman 12 YO Single Malt, 0.7 л - 7 240 РУБ

**John Gower** » Чт ноя 29, 2018 22:14

По скидке же под новый год можно Файнридер и за три тысячи урвать.

**Dakiki** » Пт янв 25, 2019 14:44

Google Drive для распознавания текста на фарси. Других вариантов нет...

Лучшие программы для распознавания текста. Рейтинг OCR.

Лучшие программы для распознавания текста. Рейтинг OCR.

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Re: Лучшие программы для распознавания текста. Рейтинг OCR.

Кто сейчас на конференции





Город переводчиков © 2001– гг. \| Написать администратору		Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group Русская поддержка phpBB