Есть полсотни двухколоночных (оригинал/перевод) PDF-документов, которые надо проверить/вычитать. Я их распознал Файнридером и затем заалайнил в TMX (один PDF-файл = один TMX-файл). В пакете очень много межфайловых повторов, но не все они распознаются, как полные повторы: предложения большие, есть мелкие огрехи форматирования (орфография проверена, ошибки в ФайнРидере проверены, но все равно какие-то блохи остались).
Задача, как ее вижу я:
1. Открыть эти тээмиксы пакетом и по маске исправить ошибки форматирования - кавычки, лишние знаки новой строки, лишние пробелы, заглавные буквы вместо строчных, вот это все. Какую программу использовать? Каждый файл открывать - ну, я уже устал на этапе распознавания-выравнивания. В Олифанте вроде пакетной обработки нет. Или есть?
2. Какой-то программой отсортировать сегменты, отобразить похожие сегменты рядом друг с другом и как-то подсветить различия. Что хочется увидеть:
Мама мыла раму тряпкой?
Мама мыла раму тряпкой?
МаМа мыла__ раму тряпкой!
Мама мыла раму. тряпкой?
Какую программу посоветуете? Пробовал использовать MemoQ, но она позволяет только отсортировать сегменты по размеру и не "подсвечивает" различия между исходными сегментами (или я не знаю, как их выделить).
|
||
Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы | ||