Посоветуйте программу для пакетной обработки TMX

**rms** » Пн май 21, 2018 17:10

Есть полсотни двухколоночных (оригинал/перевод) PDF-документов, которые надо проверить/вычитать. Я их распознал Файнридером и затем заалайнил в TMX (один PDF-файл = один TMX-файл). В пакете очень много межфайловых повторов, но не все они распознаются, как полные повторы: предложения большие, есть мелкие огрехи форматирования (орфография проверена, ошибки в ФайнРидере проверены, но все равно какие-то блохи остались).
Задача, как ее вижу я:

1. Открыть эти тээмиксы пакетом и по маске исправить ошибки форматирования - кавычки, лишние знаки новой строки, лишние пробелы, заглавные буквы вместо строчных, вот это все. Какую программу использовать? Каждый файл открывать - ну, я уже устал на этапе распознавания-выравнивания. В Олифанте вроде пакетной обработки нет. Или есть?

2. Какой-то программой отсортировать сегменты, отобразить похожие сегменты рядом друг с другом и как-то подсветить различия. Что хочется увидеть:

Мама мыла раму тряпкой?
Мама мыла раму тряпкой?
МаМа мыла__ раму тряпкой!
Мама мыла раму. тряпкой?

Какую программу посоветуете? Пробовал использовать MemoQ, но она позволяет только отсортировать сегменты по размеру и не "подсвечивает" различия между исходными сегментами (или я не знаю, как их выделить).

**mikhailo** » Пн май 21, 2018 18:44

DejaVuX3

Импортируете все TMX в один пакет и делаете всё, что вам нужно.

Но если куча отдельных ТМХ не нужна - лучше всё на один лист Эксель/текстовый редактор и там функциями/регвырами.
В принципе это можно и из дежи сделать - и ТМХ сохранить.

**rms** » Пн май 21, 2018 19:59

Нет, Эксель не очень подходит: исправления пойдут в отдельные ПДФ-ы, то есть нужна возможность узнать имя файла. Можно, конечно, каждой строчке как-то присвоить имя файла, но это же вручную придется делать.

mikhailo писал(а):DejaVuX3

Спасибо. Вспомнил - да, в Дежавю вроде бы легче редактировать исходный текст, не надо каждый раз разблокировать сегмент.
А как в Дежавю "подсветить" различия в похожих сегментах? Там есть эта функция? Интересуют различия в исходном тексте. А потом и в переводе.

**mikhailo** » Пн май 21, 2018 20:52

А как в Дежавю "подсветить" различия в похожих сегментах? Там есть эта функция? Интересуют различия в исходном тексте. А потом и в переводе.

Отличия чего от чего? Где это «то», с чем сравнивать? Или кто сначала ДежаВю скажет, где эталон?
Если вы сами загоните правильный сегмент в ТМ, а потом будете сравнивать другие с результатами из ТМ - покажет.

А так Вам и никакая другая программа ничего не покажет.

Для этого и нужен эксель - там можно отсортировав сегменты включить выделение дубликатов и посмотреть те, у которых нет дубликата по одной стороне (ну или чтобы быстрее формулами).

На будущее старайтесь полчаса подумать перед выносом вопроса на форум. Сильно помогает......

**rms** » Пн май 21, 2018 22:19

mikhailo писал(а):Отличия чего от чего? Где это «то», с чем сравнивать? Или кто сначала ДежаВю скажет, где эталон?

Например, я в MemoQ выполняю QA, там есть возможность найти несогласованно переведенные повторы. Потом в окне QA отображается двухколоночник и для активного сегмента сверху выводится надпись: "Этот сегмент также переведен следующим образом: [перевод]

Этот текст также переведен как [Меня зовут стол,]
My name is a table. | Меня зовут столик.

Вот мне надо что-нибудь, что будет как-то выделять-подсвечивать эту запятую, потому что в длинном сегменте много времени уходит на ее поиск:

Этот текст также переведен как [Меня зовут стол,]
My name is a table. | Меня зовут столик.

**mikhailo** » Пн май 21, 2018 22:42

Например, я в MemoQ выполняю QA, там есть возможность найти несогласованно переведенные повторы.

DVX3 - Find Duplicates, потом фильтруем сегменты дубликаты и смотрим. Но только в одну сторону. И смотреть придётся вручную.
Пока не увидел, что и когда вы планируете подтверждать и засылать в ТМ. И насколько понимаю, при таком раскладе и MQ никаких отличий не покажет......

Если знаете SQL - можно создать фильтр сегментов с одинаковым переводом, но разным оригиналом.... Также (SQL) можно просто скрыть дубликаты, если их много, и отсортировав (это стандартная функция) по алфавиту - исправить всё. Но опять глазками.

Вот мне надо что-нибудь, что будет как-то выделять-подсвечивать эту запятую, потому что в длинном сегменте много времени уходит на ее поиск:

См. выше.
В эксель можно создать формулу, которая будет выводить позицию отличного символа. Используя моноширинный шрифт её будет легко найти.

Ещё вариант - экспортируем из DVX один кслифф со всеми TMX и в любимый QA инструмент.

**AsIs** » Вт май 22, 2018 08:45

В программе Heartsome есть подобные фильтры (разницу не показывает)
Inconsistency in source - отобразит все сегменты, у которых одинаковый перевод, но при этом разный исходник. Например:
Duplex Stainless steel. => Дуплексная нержавеющая сталь
Duplex Stainless Steel => Дуплексная нержавеющая сталь
British Standards Institution (BSI) => Британский институт стандартов (BSI)
British Standards Institute (BSI) => Британский институт стандартов (BSI)

Ну и другие фильтры есть (Inconsistency in target, Repetitions, Untranslated segments). Вот тут, где написано "Ссылка на Dropbox еще живая": viewtopic.php?f=16&t=58019&start=40

**rms** » Пт фев 01, 2019 22:33

В общем, тогда XBench'ем всё прочесал - он все различия выделяет красным (вроде бы).

Посоветуйте программу для пакетной обработки TMX

Посоветуйте программу для пакетной обработки TMX

Re: Посоветуйте программу для пакетной обработки TMX

Re: Посоветуйте программу для пакетной обработки TMX

Re: Посоветуйте программу для пакетной обработки TMX

Re: Посоветуйте программу для пакетной обработки TMX

Re: Посоветуйте программу для пакетной обработки TMX

Re: Посоветуйте программу для пакетной обработки TMX

Re: Посоветуйте программу для пакетной обработки TMX

Кто сейчас на конференции





Город переводчиков © 2001– гг. \| Написать администратору		Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group Русская поддержка phpBB