Какими вы пользуетесь? Я тестировал, собственно, программу от создателей формата PDF - Adobe Acrobat DC и четыре онлайн сервиса: Free Online OCR, TransPDF, NewOCR, Img2txt
Испытывал на следующих документах:
1. Всем привет.pdf Самодельный документ “8 бесплатных аналогов платных программ”. Здесь ничего сложного - текст был написан в ворде, затем переведён в пдф. Сложность может представлять надпись нестандартным шрифтом, мелкие буквы, а также текст на эмблеме канала.
2. Всем привет-IMG.pdf Тот же фрагмент, но без текстового слоя - простое изображение, завёрнутое в пдф. Сложности те же, только к ним ещё добавляется необходимость распознавания всего остального текста и сохранения форматирования.
3. Bravoil.pdf Рекламная брошюра, полученная от представителя компании. Ничего конфиденциального. И хоть с первого взгляда она кажется простой, распознать её довольно трудно.
Начал с авторитета - Adobe Acrobat DC
Первый файл. Всем привет.docx Ожидаемо. Никаких трудностей. Полная конвертация в редактируемый формат. Однако, изображение почему-то программа решила не распознавать.
Второй файл. Всем привет-IMG.docx Результат неплохой. Кончено, нестандартный шрифт не распознался, но мелкий шрифт под звёздочкой распознался достаточно хорошо. Отлично.
Файл номер 3. Bravoil.docx Выглядит неплохо, но не редактируется.
Я пытался взять на тест больше программ для ПК. Но, оказывается, что для ПК доступны лишь несколько “невероятно крутых” программ, которые распознают только изображения или устанавливают на компьютер мусор. Я пробовал: Free OCR, Simple OCR, CuneiForm OCR, Freemore OCR, Abbyy не пробовал, но она платная и очень дорогая.
К онлайн-сервисам.
Free Online OCR.
По умолчанию при регистрации сервис даёт около 30 бесплатных страниц, остальные нужно докупать. Но спасибо создателям сайта за то, что при регистрации не нужно подтверждать свою почту. Каждый раз, когда страницы заканчиваются можно просто вводить “новые” имейл,и логин, добавляя к старым новую цифру. Это делает сервис почти полностью бесплатным, что не может не радовать.
Файл 1. Всем привет-FOC.docx Хороший результат. Но отнюдь не идеальный. Есть непонятные символы, картинка искажена, но в целом допустимо.
Файл 2. Всем привет-IMG-FOC.docx Результат распознавания с картинки выглядит лучше, чем простая конвертация пдф в ворд. Снова хороший результат.
Файл 3. Bravoil-FOC.docx Сервис справился с распознаванием и этого документа! Удивительно, но факт. Опять же, есть некоторые недочёты, но это результат, и если в ваши обязанности не входит вёрстка, то это именно то, что вам нужно.
NewOCR. Нашёл в одной из статей про лучшие сервисы распознавания символов на просторах интернета. Говорят, что сервис хороший.
Файл 1. Всем привет-newocr.doc Текст распознался хорошо, качественно, но картинку сервис вообще куда-то съел. Непорядок.
Файл 2. Всем привет-IMG-newocr.doc Что-то пошло не так. Целую половину документа съел. А это всего лишь одностраничный документ с простым форматированием и одной картинкой.
Файл 3. Большой файл сначала долго загружался, а потом предложил мне скачать обрубок первой страницы в формате докBravoil-newocr.doc или весь документ в формате txt Bravoil-newocr.txt. Зачем мне нужно вот это? Это во-первых нечитабельно, а во-вторых совершенно лишено форматирования и каких-либо картинок. Это совершенно неприемлемый результат.
transpdf.
Этот сервис по умолчанию платный, но он становится почти бесплатным, если вы пользуетесь MemoQ. В итоге мы получаем не просто распознанный док файл, а развёрстанный файл для перевода.
Файл 1. Vsem_privet_(ru_to_en).xlf С текстовым слоем проблем нет, всё качественно. Ну, может, кроме картинки.
Файл 2. Vsem_privet-IMG-ocr_(ru_to_en).xlfХорошо, но беда с латиницей, спрятанной среди кириллицы. Однако, это единственный сервис, распознавший нестандартный шрифт.
Файл 3. 001_Bravoil_Ind_(en_to_ru).xlf Не очень хорошо, распознание есть, но примерно на уровне Adobe Acrobat, то есть далеко не полностью.
Сервис Img2txt. Нашёл его где-то на просторах интернета в комментариях к статье о лучших сервисах.
Файл 1. DL_Task_2900060_img2txt.com.docx Очень криво.
Файл 2. DL_Task_2748257_img2txt.com.docx Слишком долгое ожидание обработки, но результат неплохой. Если вас не волнует расположение букв в слове и вообще слова. Много ошибок, но распознание есть.
Файл 3. Этот файл полностью распознать не удалось, потому что максимальный объём файла для распознания этим сервисом - 8 мб. Я взял несколько страниц из документа Страницы из Bravoil.pdf, но результат ужасен. DL_Task_2900069_img2txt.com.docx Мягко говоря.
Вот итоговая таблица с результатами рейтинга - http://funkyimg.com/i/2MAHf.png
А чем вы пользуетесь для распознавания символов?
Весь рейтинг в одном видео здесь.
|
||
Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы | ||