Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Чем распознаете картинки?

Чем распознаете картинки?

Сообщение Max Anatolich » Вт авг 08, 2017 13:36

Господа, доброго дня!
Измучался с форматированием текста под традос, который распознан из картинок.
Пользуюсь Abby Scan to office. Пробовал Finereader, тоже далеко от идеала... стоит что-то начать двигать, и документ разлетается полностью.
Может кто-нибудь поделиться опытом? Может есть какие-то более гуманные способы, так как тратить столько времени на верстку - это просто безобразие
Max Anatolich

 
Сообщения: 2
Зарегистрирован: Вт авг 08, 2017 13:30





Re: Чем распознаете картинки?

Сообщение Bookworm » Вт авг 08, 2017 20:15

Чтобы после распознавания все это дело не расползалось, я обычно делаю так:
1. После распознавания в FineReader сохраняю результат не в docx, а в pdf (только не в pdf/A!). При этом получается pdf с текстовым слоем.
2. Вытаскиваю текст из этого pdf в xml при помощи Infix Pro.
3. Перевожу xml в Традосе.
4. В Infix запихиваю перевод обратно в pdf.
Все, получаем переведенный pdf, где уже ничего никуда не уползет.
Я никогда не верил в сказки про равенство людей: физик-ядерщик легко может разобраться в законодательстве или выучить несколько иностранных языков, но ни один гуманитарий не сможет запустить ядерный реактор.
Аватара пользователя
Bookworm

 
Сообщения: 1907
Зарегистрирован: Вс июн 14, 2009 11:28
Откуда: Тула
Язык(-и): русский-английский

Re: Чем распознаете картинки?

Сообщение Tanja Sholokhova » Ср авг 09, 2017 10:18

Попробуйте FineReader 8, с сохранением в doc. Это была последняя нормальная версия. После этого пошло сплошное г.
Чтобы что-то сделать, нужно это делать.
Tanja Sholokhova

 
Сообщения: 1581
Зарегистрирован: Чт апр 21, 2005 12:17

Re: Чем распознаете картинки?

Сообщение Max Anatolich » Ср авг 09, 2017 17:09

Bookworm писал(а):Чтобы после распознавания все это дело не расползалось, я обычно делаю так:
1. После распознавания в FineReader сохраняю результат не в docx, а в pdf (только не в pdf/A!). При этом получается pdf с текстовым слоем.
2. Вытаскиваю текст из этого pdf в xml при помощи Infix Pro.
3. Перевожу xml в Традосе.
4. В Infix запихиваю перевод обратно в pdf.
Все, получаем переведенный pdf, где уже ничего никуда не уползет.


Спасибо большое!!! Этот вариант выглядит очень интересным. Скажите, а распознаете в OCR режиме или просто?

Tanja Sholokhova писал(а):Попробуйте FineReader 8, с сохранением в doc. Это была последняя нормальная версия. После этого пошло сплошное г.


Тоже попробую! Спасибо большое!
Max Anatolich

 
Сообщения: 2
Зарегистрирован: Вт авг 08, 2017 13:30

Re: Чем распознаете картинки?

Сообщение Bookworm » Ср авг 09, 2017 22:31

Не понял насчет "режима OCR". OCR - это optical character recognition, то есть любая технология распознавания текста с картинки - это OCR.
Я никогда не верил в сказки про равенство людей: физик-ядерщик легко может разобраться в законодательстве или выучить несколько иностранных языков, но ни один гуманитарий не сможет запустить ядерный реактор.
Аватара пользователя
Bookworm

 
Сообщения: 1907
Зарегистрирован: Вс июн 14, 2009 11:28
Откуда: Тула
Язык(-и): русский-английский

Re: Чем распознаете картинки?

Сообщение putator » Чт авг 10, 2017 01:40

Bookworm писал(а):Не понял насчет "режима OCR". OCR - это optical character recognition, то есть любая технология распознавания текста с картинки - это OCR.

Таких вопросов будет становиться все больше и больше, потому как вот это, по мнению Coolwind, будет иметь место.
Особенно с дефолтным языком
"Wy moatte moarn, mar wer even, yn it waar sjen." Pyt Paulusma
"My ochotní, vedeni nevědomými, děláme nemožné pro nevděčné" K. Jireček.
"Jesteśmy tym, kogo udajemy i dlatego musimy bardzo uważać, kogo udajemy". K. Vonnegut
Аватара пользователя
putator

 
Сообщения: 1441
Зарегистрирован: Вт июн 01, 2010 02:40
Язык(-и): martian



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Полезное программное обеспечение. Аллея Бродяги

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9