Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Экспорт "неизвестных" сегментов в ТМХ

Экспорт "неизвестных" сегментов в ТМХ

Сообщение OlegV » Вт ноя 26, 2013 10:38

Уважаемые коллеги,

Сам я с memoQ никогда пока не работал, но задаю здесь вопрос для своего коллеги.

Можно ли в memoQ экспортировать после анализа нового файла-проекта "неизвестные сегменты" (которых нет в базе) в формате ТМХ? Возможно, в memoQ используются другие понятия. (Я провожу аналогию с функцией "Export unknown segments" в Традосе, которую можно использовать после анализа документов.)

И если можно, то как это сделать?

Заранее спасибо.
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU





Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение Andrew » Вт ноя 26, 2013 12:26

В версии 6.2 (не самой новой) можно создать View с отбором сегментов по нужному статусу, а затем экспортировать собранные в этом представлении сегменты в XLIFF, двуязычный DOC или RTF. Также можно экспортировать Project TM из окна анализа статистики в TMX после того, как анализ выполнен. Про экспорт пустых сегментов в TMX задумываться как-то не приходилось, но я бы наличие такой возможности не исключал. Возможно, в более свежих версиях есть и более свежие решения. :roll:
Andrew
Хранитель огня
 
Сообщения: 9921
Зарегистрирован: Пн янв 14, 2002 12:28
Откуда: Rostov-on-Don
Блог: Просмотр блога (23)
Язык(-и): EN<->RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение OlegV » Вт ноя 26, 2013 12:38

Спасибо.
На всякий случай уточню. В Традосе экспортируются неизвестные сегменты, для которых в базе нет нужной пары (с заранее заданным пенальти). Но, такие сегменты в чистом виде не являются "пустыми". Они просто имеют формат "исходник-исходник" (условно говоря).
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение AsIs » Вт дек 03, 2013 18:31

Я делаю так: Претранслейт в режиме Any matches. Потом в окне Sorting задаю Match rate (higher first). ТОгда все 100% совпадения будут идти сверху. Проверяю, подтверждаю. Так можно сделать с совпадениями от 100% до 96% (можно и ниже процент смотреть, но там уже больше расхождений, то есть чем сегмент ниже в списке при такой сортировке, тем ближе он к условию "неизвестный сегмент"). Когда они (100-96%) будут все подтверждены (а 100% тоже через настройки в разделе Pretranslate) у меня подтверждаются сразу, то можно применить фильтр (иконка в виде лейки). Выбираете фильтр Confirmed and proofread. На экране остаются только "зеленые" сегменты. Если просто сделать экспорт, то экспортируется все равно все целиком. Поэтому следующим шагом нужно заблокировать все зеленые сегменты. Итак, отфильтровали подтвержденные - проверьте, нет ли других (в конце списка сегментов). Если вы видите только "зелень", значит, отфильтровали правильно. Теперь жмете Ctrl+Shift+A, чтобы выделить все сегменты на экране. Потом сразу же Ctrl+Shift+L, чтобы всех их заблокировать. Можно фильтр сбросить и отменить сортировку (выбрав No sorting), хотя это особо на дальнейшие ваши действия не повлияет.
Последний этап: выбираете файл, который нужно экспортировать, из списка на вкладке проекта. Далее Export bilingual. В диалоговом окне важно не нажать сразу Export. Нажимаете Next. Снимаете галочку Include locked segments in export (последняя).
Буков много, но нас самом деле пару раз сделаете - минутное дело. Особенно если претранслейт сделать без вычитки. Чтобы претранслейт сразу подтверждал 100% совпадения, надо поставить галочку на второй вкладке (Confirm/lock) New status: confirmed и точку Exact match.
UPD
Если вы не хотите смотреть все, что меньше 100%, то тогда не Any match, а Excat match. В этом случае претранслейт выдаст только зеленые сегменты (если стоит New status: confirmed для Exact match). Если New status: confirmed для Exact match не поставить, тоже будут только все 100%, но их статус будет неподтвержденным. Есть еще режим Good match (выдает то ли 99 то ли 98% минимум, не пользуюсь)
Последний раз редактировалось AsIs Вт дек 03, 2013 18:45, всего редактировалось 3 раз(а).
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение OlegV » Вт дек 03, 2013 18:37

Спасибо. Но, это надо пару раз тщательно переварить :).
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение AsIs » Вт дек 03, 2013 18:44

Ну если без затей, то Pretranslate Exact Match при New status: confirmed. Отфильтровать и залочить confirmed и экспортировать, сняв галку Include locked segments in export
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение OlegV » Пт дек 06, 2013 17:11

В свое время отправил запрос по теме в техподдержку Kilgray.
Ответили - экспортировать напрямую "неизвестные сегменты" (low matching rate segments) нельзя. Но, тут же предложили вариант решения:
"you can create a new TM and set as Primary > open the extracted document > copy source to target to all segments > Confirm segments. Then all segments in the view are stored in the TM. And then you can export tmx from the TM."

То есть,
- создать новую ТМ и установить ее как Primary,
- открыть извлеченный (экспортированный в xliff/doc/rtf)) документ,
- скопировать текст из исходника в целевую часть (для всех сегментов),
- подтвердить сегменты (Confirm segments). В результате, все сегменты будут сохранены в этой базе,
- экспортировать содержимое базы в ТМХ. Что мне и требовалось изначально.
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение AsIs » Пт дек 06, 2013 20:10

А зачем вам такой тмх нужен, где перевод всех сегментов равен оригиналу? Просто любопытно
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение OlegV » Сб дек 07, 2013 09:10

AsIs писал(а):А зачем вам такой тмх нужен, где перевод всех сегментов равен оригиналу? Просто любопытно


Такой ТМХ (исходник-исходник) мне нужен по двум причинам:

1. Это новый "текст", которого, скорее всего, нет в базе. Поэтому, я просматриваю его на предмет новой лексики. Но, для упрощения просмотра (в редакторе Промта) я удаляю все теги - они мне на данном этапе не нужны.
2. После ознакомления с "неизвестной" частью и настройкой словарей я прогоняю данный извлеченный ТМХ-файл через пакетный переводчик Промта. Теги, при этом, не портятся (крайне редко). И импортирую полученный ТМХ-файл (исходник-МП) в базу.

Напомню, что memoQ я не использую пока. Но, описанный выше подход давно применяю для Традосов. И есть еще один полезный момент. После импорта "неизвестных" сегментов в базу у меня функция конкорданса охватывает весь документ, подлежащий переводу, а не только то, что было переведено ранее. А в случае перевода нескольких документов по одной теме (например, целого комплекта документации по системе) я или группа переводчиков также могу (может) видеть все сегменты (а не только переведенные ранее). Да, после МП определенная корявость в машинно переведенных сегментах присутствует (если они еще не были пост-редактированы), но все такие сегменты уже содержат нужную лексику.
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение AsIs » Ср дек 18, 2013 10:04

Andrew писал(а):В версии 6.2 (не самой новой) можно создать View

Сразу как-то не обратил внимание, но случайно на глаза попалась команда Create View, и тут я вспомнил этот пост... Andrew, спасибо, ваш ответ подвигнул меня вникнуть в эту функцию. Ах, какое полезное изобретение (с)
Это ж там можно замену сразу на 125 файлов делать... И обратный импорт/апдейт (из ртф с переводом от привлеченных переводчиков) как-то вроде проще делается, без глюков. При обычном апдейте частенько выдает 0 успешных апдейтов. А в режиме View пока не было такой проблемы.
Одним словом, спасибо за наводку. Прекрасная фича.
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение Andrew » Ср дек 18, 2013 10:30

AsIs писал(а):Это ж там можно замену сразу на 125 файлов делать...


Да, здесь у Kilgray получился "намного более лучший мех", чем когда-то мегаполезная Glue в Традосе. :mrgreen:
Andrew
Хранитель огня
 
Сообщения: 9921
Зарегистрирован: Пн янв 14, 2002 12:28
Откуда: Rostov-on-Don
Блог: Просмотр блога (23)
Язык(-и): EN<->RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение AsIs » Ср дек 18, 2013 22:47

OlegV писал(а):Да, после МП определенная корявость в машинно переведенных сегментах присутствует (если они еще не были пост-редактированы), но все такие сегменты уже содержат нужную лексику.

А не проще ли сделать из неподтвержденных сегментов rtf-таблицу, скопировать левый столбик в правый и потом правый стобик выделить и бабхнуть гуглперевод утилитой Qtranslate. Потом получившийся ртф импортировать обратно в САТ? Я так делаю. Причем если раньше я мучился по вышеописанной процедуре с каждым из 125 файлов отдельно, то благодаря одному золотому пользователю форума я делаю это одним движением со всеми 125 файлами...
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение OlegV » Чт дек 19, 2013 08:48

AsIs: Может быть, будет немного и проще. Напомню, я не применяю пока memoQ :).
У меня пара вопросов по Вашему подходу:

1. Что за лексику в Вашем случае подставляет Гуглоперевод? Можете ли Вы лексикой этой управлять там? Можно ли применять там списки DoNotTranslate?

2. Вы имеете в виду билингвальный (проприетарный) RTF-файл? Как Гуглоперевод обходится с тегами memoQ?

Примечание: я применяю связку "Традос+Промт". Практика показывает, что если я через Промт прогоняю ТМХ-файл, то теги сохраняются. А тегов в сегментах может быть порядочно, как известно :). И повторю еще один момент: благодаря предварительной настройке пользовательских словарей в Промте, я получаю предсказуемый МП (в плане именно той лексики, которая мне нужна).
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение AsIs » Вт фев 11, 2014 21:34

1. Нет, не могу. Но, на мой взгляд, если бы так было, это уже была бы скатерть-самобранка, а не САТ-тул...
2. Да, именно его я и имею в виду. С тэгами гугл обходится безжалостно - заменяет их на слово (если мне не изменяет память) Obj в такой пунктирной рамке. Но мне это не представляется большой проблемой - тэги так и так втыкать приходится руками.
+
3. Я не знал, что промт сохраняет тэги + Если Промт решает проблему пункта 1... Надо призадуматься. А переводит не хуже Гугла? Ммм... Может и правда присмотреться? Для меня слово "промт" более ругательное, чем Гугл, но вероятно вы могли бы развеять эти мои предрассудки..? Что, реально промт "рулее" гугла? Признаться, не пробовал эту связку...
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение OlegV » Ср фев 12, 2014 09:02

Не получится дать однозначный ответ - хуже Промт или лучше, чем Гугл. Я видел очень неплохие переводы юридических документов после Гугла. Предположительно, благодаря хорошему корпусу подобных документов.
По поводу тегов. Применительно к ТМХ (1.4b) - в подавляющем числе случаев теги сохраняются. Кроме того, есть определенная их интеллектуальная обработка:

а) изменение порядка тегов (если порядок слов в переводе не такой, как в оригинале);

б) увеличение числа тегов (если порядок/количество слов сильно отличается от оригинала);

в) для словосочетания, заведенного в словарь - перемещение тегов на края перевода словосочетания;

Бывают случаи, когда тег находится "внутри" слова. Промт вынесет такой тег на край слова. Но, если говорить о нативных тегах memoQ, то там с тегами будет хуже (они будут сохранены, но Промт часто не будет понимать слово, внутри или вплотную к которому идет тег).
Для XML-документов можно создавать файл XML-правил. В общем, это отдельная история :).

Посмотрите мою презентацию - http://www.promt.ru/images/oleg_vygodsky.pdf
Я там описываю некоторые возможности и ресурсы ПРОМТа (которые регулярно применяю на практике) для переводческих проектов.
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Экспорт "неизвестных" сегментов в ТМХ

Сообщение AsIs » Ср фев 12, 2014 10:20

Спасибо! Изучаю.
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в MemoQ

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3