Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Посоветуйте программу для пакетной обработки TMX

Посоветуйте программу для пакетной обработки TMX

Сообщение rms » Пн май 21, 2018 17:10

Есть полсотни двухколоночных (оригинал/перевод) PDF-документов, которые надо проверить/вычитать. Я их распознал Файнридером и затем заалайнил в TMX (один PDF-файл = один TMX-файл). В пакете очень много межфайловых повторов, но не все они распознаются, как полные повторы: предложения большие, есть мелкие огрехи форматирования (орфография проверена, ошибки в ФайнРидере проверены, но все равно какие-то блохи остались).
Задача, как ее вижу я:

1. Открыть эти тээмиксы пакетом и по маске исправить ошибки форматирования - кавычки, лишние знаки новой строки, лишние пробелы, заглавные буквы вместо строчных, вот это все. Какую программу использовать? Каждый файл открывать - ну, я уже устал на этапе распознавания-выравнивания. В Олифанте вроде пакетной обработки нет. Или есть?

2. Какой-то программой отсортировать сегменты, отобразить похожие сегменты рядом друг с другом и как-то подсветить различия. Что хочется увидеть:

Мама мыла раму тряпкой?
Мама мыла раму тряпкой?
МаМа мыла__ раму тряпкой!
Мама мыла раму. тряпкой?

Какую программу посоветуете? Пробовал использовать MemoQ, но она позволяет только отсортировать сегменты по размеру и не "подсвечивает" различия между исходными сегментами (или я не знаю, как их выделить).
If you don't find a way to make money while you sleep, you will work until you die.
Аватара пользователя
rms

 
Сообщения: 1892
Зарегистрирован: Вс ноя 26, 2006 05:06
Откуда: 95% ภูเก็ต / 5% СПб





Re: Посоветуйте программу для пакетной обработки TMX

Сообщение mikhailo » Пн май 21, 2018 18:44

DejaVuX3

Импортируете все TMX в один пакет и делаете всё, что вам нужно.

Но если куча отдельных ТМХ не нужна - лучше всё на один лист Эксель/текстовый редактор и там функциями/регвырами.
В принципе это можно и из дежи сделать - и ТМХ сохранить.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Посоветуйте программу для пакетной обработки TMX

Сообщение rms » Пн май 21, 2018 19:59

Нет, Эксель не очень подходит: исправления пойдут в отдельные ПДФ-ы, то есть нужна возможность узнать имя файла. Можно, конечно, каждой строчке как-то присвоить имя файла, но это же вручную придется делать.

mikhailo писал(а):DejaVuX3


Спасибо. Вспомнил - да, в Дежавю вроде бы легче редактировать исходный текст, не надо каждый раз разблокировать сегмент.
А как в Дежавю "подсветить" различия в похожих сегментах? Там есть эта функция? Интересуют различия в исходном тексте. А потом и в переводе.
If you don't find a way to make money while you sleep, you will work until you die.
Аватара пользователя
rms

 
Сообщения: 1892
Зарегистрирован: Вс ноя 26, 2006 05:06
Откуда: 95% ภูเก็ต / 5% СПб

Re: Посоветуйте программу для пакетной обработки TMX

Сообщение mikhailo » Пн май 21, 2018 20:52

А как в Дежавю "подсветить" различия в похожих сегментах? Там есть эта функция? Интересуют различия в исходном тексте. А потом и в переводе.


Отличия чего от чего? Где это «то», с чем сравнивать? Или кто сначала ДежаВю скажет, где эталон?
Если вы сами загоните правильный сегмент в ТМ, а потом будете сравнивать другие с результатами из ТМ - покажет.

А так Вам и никакая другая программа ничего не покажет.

Для этого и нужен эксель - там можно отсортировав сегменты включить выделение дубликатов и посмотреть те, у которых нет дубликата по одной стороне (ну или чтобы быстрее формулами).

На будущее старайтесь полчаса подумать перед выносом вопроса на форум. Сильно помогает......
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Посоветуйте программу для пакетной обработки TMX

Сообщение rms » Пн май 21, 2018 22:19

mikhailo писал(а):Отличия чего от чего? Где это «то», с чем сравнивать? Или кто сначала ДежаВю скажет, где эталон?


Например, я в MemoQ выполняю QA, там есть возможность найти несогласованно переведенные повторы. Потом в окне QA отображается двухколоночник и для активного сегмента сверху выводится надпись: "Этот сегмент также переведен следующим образом: [перевод]

Этот текст также переведен как [Меня зовут стол,]
My name is a table. | Меня зовут столик.

Вот мне надо что-нибудь, что будет как-то выделять-подсвечивать эту запятую, потому что в длинном сегменте много времени уходит на ее поиск:

Этот текст также переведен как [Меня зовут стол,]
My name is a table. | Меня зовут столик.
If you don't find a way to make money while you sleep, you will work until you die.
Аватара пользователя
rms

 
Сообщения: 1892
Зарегистрирован: Вс ноя 26, 2006 05:06
Откуда: 95% ภูเก็ต / 5% СПб

Re: Посоветуйте программу для пакетной обработки TMX

Сообщение mikhailo » Пн май 21, 2018 22:42

Например, я в MemoQ выполняю QA, там есть возможность найти несогласованно переведенные повторы.


DVX3 - Find Duplicates, потом фильтруем сегменты дубликаты и смотрим. Но только в одну сторону. И смотреть придётся вручную.
Пока не увидел, что и когда вы планируете подтверждать и засылать в ТМ. И насколько понимаю, при таком раскладе и MQ никаких отличий не покажет......

Если знаете SQL - можно создать фильтр сегментов с одинаковым переводом, но разным оригиналом.... Также (SQL) можно просто скрыть дубликаты, если их много, и отсортировав (это стандартная функция) по алфавиту - исправить всё. Но опять глазками.

Вот мне надо что-нибудь, что будет как-то выделять-подсвечивать эту запятую, потому что в длинном сегменте много времени уходит на ее поиск:


См. выше.
В эксель можно создать формулу, которая будет выводить позицию отличного символа. Используя моноширинный шрифт её будет легко найти.

Ещё вариант - экспортируем из DVX один кслифф со всеми TMX и в любимый QA инструмент.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Посоветуйте программу для пакетной обработки TMX

Сообщение AsIs » Вт май 22, 2018 08:45

В программе Heartsome есть подобные фильтры (разницу не показывает)
Inconsistency in source - отобразит все сегменты, у которых одинаковый перевод, но при этом разный исходник. Например:
Duplex Stainless steel. => Дуплексная нержавеющая сталь
Duplex Stainless Steel => Дуплексная нержавеющая сталь
British Standards Institution (BSI) => Британский институт стандартов (BSI)
British Standards Institute (BSI) => Британский институт стандартов (BSI)

Ну и другие фильтры есть (Inconsistency in target, Repetitions, Untranslated segments). Вот тут, где написано "Ссылка на Dropbox еще живая": viewtopic.php?f=16&t=58019&start=40
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Посоветуйте программу для пакетной обработки TMX

Сообщение rms » Пт фев 01, 2019 22:33

В общем, тогда XBench'ем всё прочесал - он все различия выделяет красным (вроде бы).
If you don't find a way to make money while you sleep, you will work until you die.
Аватара пользователя
rms

 
Сообщения: 1892
Зарегистрирован: Вс ноя 26, 2006 05:06
Откуда: 95% ภูเก็ต / 5% СПб



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Полезное программное обеспечение. Аллея Бродяги

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 18