Страница 1 из 2

Использование МП с CAT без подписки на МП

СообщениеДобавлено: Чт фев 26, 2015 15:13
mikhailo
Очередной кратенький мануал по использованию МП с САТ при отсутствии платной подписки на МП (на примере Дежи).

http://rghost.ru/8FdZDyVLc

С конструктивной критикой сюда или в личку.

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Чт фев 26, 2015 17:27
AsIs
Можно вопрос?
Я делаю так: сохраняю сегменты к переводу в двуязычный rtf. Открываю rtf. Копирую левый (source) столбик в правый (target), выделяю правый столбик и жму горячие кнопки вставки гуглоперевода из Qtranslate (присваиваются пользователем).
Сохраняю ртф и заливаю обратно в мемоку.
Вопрос: для чего нужны манипуляции между "Экспортируем его в двуязычный RTF" и "Теперь можно заниматься редактированием ненастроенного машинного перевода"?
(Может, я упускаю что-то.)

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Чт фев 26, 2015 20:12
mikhailo
Можно вопрос?
Я делаю так: сохраняю сегменты к переводу в двуязычный rtf. Открываю rtf. Копирую левый (source) столбик в правый (target), выделяю правый столбик и жму горячие кнопки вставки гуглоперевода из Qtranslate (присваиваются пользователем).
Сохраняю ртф и заливаю обратно в мемоку.
Вопрос: для чего нужны манипуляции между "Экспортируем его в двуязычный RTF" и "Теперь можно заниматься редактированием ненастроенного машинного перевода"?


Почему нельзя - можно.
Я показал один из способов работы, когда в Pretranslated документе есть разбросанные по всему тексту переведенные сегменты, и хочется их сохранить.

Есть альтернативный вариант с их лочением и неэкспортом в RTF.

А, вообще, есть наверное и другие способы работы, которые не освещены в руководствах и не очевидны, и которыми более опытные товарищи могли бы делиться с менее опытными, как это стараюсь делать я.

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Пт фев 27, 2015 10:45
AsIs
mikhailo, я без всякого срказама (если вдруг вы так подумали). Спасибо, дело нужное.
Немного добавлю по "своему" способу. Если после претранслейта появились сегменты, которые необходимо сохранить в том виде, в каком они вставились из ТМ, можно отсортировать сегменты по длине текста начиная с самых коротких. Тогда вначале будут идти сегменты без перевода. Соответственно нужно найти первый сегмент с текстом и, выделив шифтом до последнего, заблокировать. Затем сделать экспорт в ртф, сняв галочку Include locked segments. Я сейчас говорю про мемоку, но ртфный формат есть и в Мемсорсе, и в Студии, и в Деже...
а. Если сегментов немного (скажем, на 3 вордовских листах все уместилось), то нужно скопировать содержимое левого столбца в правый и, не снимая выделение, нажать команду Qtranslate "Заменить выделенный текст переводом".
б. Еслим сегментов много (например, 5678 сегментов), целесообразно временно отбить шапку ртфной таблицы, чтобы не тянуть ЛКМ через все 5678 сегментов. Для этого ставим курсор в сегмент №1 и жмем команду Ворда "Разбить таблицу". Далее наводим указатель над левым (сорсовым) столбцом так, чтобы появилась вертикальная направленная вниз черная стрелка. Это позовляет выделить весь столбец одним кликом. Выделили -> скопировали -> вставили. При этом стобец Таргет (пустой) сохраняется, смещаяясь вправо. Т.е. после вставки скопированного сорса на место таргета пустой таргет справа следует так же (вертикальной черной стрелкой) выделить и удалить.
Прогнать волшебным Qtranslate'ом все 5678 сегментов не получится. Придется в правом столбце выделять текст по 3-4 листа (сегментов по 400-500) и последовательно переводить qtranslatом.
После машиноперевода всего текста нужно вернуться к шапке и удалить разрыв, чтобы шапка прилепилась обратно к таблице. Сохранить ртф и залить обратно в "кошку". При желании/необходимости можно предварительно почистить машиноперевод. Например, заменить какой-то часто встречающийся термин, который был неудачно выбран машиной (e.g. "контракт" на "договор").
Пока писал, понял, что столько букав читать сложно. Попробую завтра сваять видеоурок, если кому-то это надо.

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Пт фев 27, 2015 11:20
mikhailo
AsIs

Ещё одним фактором в сторону той методики, которую я использовал, является возможность наличия табов внутри сегментов в деже. После такого копипаста всё идёт вразнос. (выход - предварительная замена с последующим возвратом)

Кстати при вставке в таблицу Ворд есть одно очень нехорошее свойство, замеченное пару раз — пустые строки просто не учитываются и при вставке происходит сдвиг вверх. На 5678 сегментов поиск точки сдвига превращается в веселуху.

Пока писал, понял, что столько букав читать сложно. Попробую завтра сваять видеоурок, если кому-то это надо.


Читать сложно из-за того, что текст плохо структурирован и не выделено самое важное. А смотреть 30 минутный ролик ради 1-5 минут действительно полезной информации, как-то не очень правильно.

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Пт фев 27, 2015 11:29
AsIs
Я и не собираюсь делать ролик на 30 минут. Все действия занимают минуты 3-5.
Сдвигов никаких не происходит, если скоипровать целиком сорс и вставить его вместо таргета.
В сорсе не бывает пустых сегментов, поэтому как им появиться в таргете, если таргет получается путем копирования сорса? Или я что-то не так понял? Что за пустые строки?

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Пт фев 27, 2015 11:43
AsIs
Изображение

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Пт фев 27, 2015 11:48
mikhailo
Я и не собираюсь делать ролик на 30 минут. Все действия занимают минуты 3-5.
Сдвигов никаких не происходит, если скоипровать целиком сорс и вставить его вместо таргета.
В сорсе не бывает пустых сегментов, поэтому как им появиться в таргете, если таргет получается путем копирования сорса? Или я что-то не так понял? Что за пустые строки?


А как вы обратно вставите перевод если есть сегменты с табами внутри?
Пустые строки иногда появляются из-за неперевода в Qtranslate - нечасто, но бывает.

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Пт фев 27, 2015 12:05
AsIs
Чтобы этого "нечасто, но бывает" не было, нужно (я об этом уже упоминал) не пытаться выделить слишком много сегментов. Кстати 400-500 я написал - погорячился. По 100-200. Тогда процесс перевода пройдет без сдвигов. Если слишком много захватывать, могут быть косяки, да. Выход - не хапай много, выделяй частями.
Что касается табуляции, то в мемоку она заменяется тэгом. Тэг в ртфе передается скобками с цифрой. В конце концов можно в редакторе кошки потом вставить. Сколько там этих тэгов должно быть, чтобы это стало проблемой...

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Пн сен 19, 2016 16:33
Platov
mikhailo писал(а):Очередной кратенький мануал по использованию МП с САТ при отсутствии платной подписки на МП (на примере Дежи).

http://rghost.ru/8FdZDyVLc.

Добрый день!
Файл удален, можно залить файл снова?

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Вт дек 19, 2017 04:56
Flape
mikhailo писал(а):Очередной кратенький мануал по использованию МП с САТ при отсутствии платной подписки на МП (на примере Дежи).

http://rghost.ru/8FdZDyVLc

С конструктивной критикой сюда или в личку.


Скиньте пожалуйста мануал в личку, к вам не достучаться. По ссылке файл удалён.

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Вт дек 19, 2017 10:23
mikhailo
Новая ссылка по просьбам трудящихся
http://rgho.st/7PbkrYz6q

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Вт фев 06, 2018 15:18
OlegV
mikhailo, спасибо за документ.

А что означает Ваш финальный параграф - "Теперь можно заниматься редактированием ненастроенного машинного перевода. Такая работа дополнительно позволит понять, стоит ли связываться с предложениями о постредактировании МП от БП Янус, Abbyy LS и иже с ними."

Насколько мне известно, упомянутые БП либо сами делают МП (и применяют для этого разные системы МП), либо получают от своих заказчиков проекты, где уже находится МП (выполненный на стороне заказчика).
Пока не откроешь конкретный файл, не увидишь качество МП.

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Вт фев 06, 2018 16:22
Lohh_ness
OlegV писал(а):mikhailo, спасибо за документ.

А что означает Ваш финальный параграф - "Теперь можно заниматься редактированием ненастроенного машинного перевода. Такая работа дополнительно позволит понять, стоит ли связываться с предложениями о постредактировании МП от БП Янус, Abbyy LS и иже с ними."

Насколько мне известно, упомянутые БП либо сами делают МП (и применяют для этого разные системы МП), либо получают от своих заказчиков проекты, где уже находится МП (выполненный на стороне заказчика).
Пока не откроешь конкретный файл, не увидишь качество МП.

Можно получить файл на post-machine editing, за такую работу другие расценки, чем за просто перевод текста.

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Вт фев 06, 2018 16:32
OlegV
Еще вопросы:

Экспортируем его в двуязычный RTF. File -> Share -> Export ->Bilingual RTF и ставим флажки, как показано ниже.


1. Можно ли в Деже экспортировать из рабочего файла (проекта) сегменты NoMatch и/или Low Match?
2. Можно ли экспортировать их в ТМХе?

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Вт фев 06, 2018 22:09
mikhailo
1. В деже при экспорте можно исключить гарантированные, 100%, дубликаты и заблокированные сегменты.
2. Отдельно нельзя - можно загнать в пустую базу проект, потом перегнать базу в TMX из которой затем выбрать нужные сегменты фильтрами в слонике или Хертсаме.

Насколько мне известно, упомянутые БП либо сами делают МП (и применяют для этого разные системы МП), либо получают от своих заказчиков проекты, где уже находится МП (выполненный на стороне заказчика).
Пока не откроешь конкретный файл, не увидишь качество МП.


Ненастроенный МП это, как правило, самый худший МП... Хуже наверное будет только Стилус 3.0 или промт 98.

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Вт фев 06, 2018 23:29
OlegV
1. В деже при экспорте можно исключить гарантированные, 100%, дубликаты и заблокированные сегменты.
2. Отдельно нельзя - можно загнать в пустую базу проект, потом перегнать базу в TMX из которой затем выбрать нужные сегменты фильтрами в слонике или Хертсаме.


Сам я с Дежей (пока) не работаю. Но очень интересно :). А можно в Деже сделать такой экспорт (пп. 1 - исключить все перечисленные сегменты), но не в файл, а в отдельную базу ТМ?

Ненастроенный МП это, как правило, самый худший МП... Хуже наверное будет только Стилус 3.0 или промт 98.


Батенька, да у вас опыт с МП - свыше 20 лет :). Я сам со Стайлуса начинал. В 1993 г. Тогда было только две системы англо-русских: для ИТ и бизнеса. Вот с ИТ я и начал свои игры-эксперименты с МП (PROMT). И его настройкой. Мы тогда переводили много документации по телекому для одной итальянской компании. У них исходник (на английском языке) был хорош: простые и правильные предложения. После ввода в словарь одной-двух сотен терминов машинный перевод "полез" с очень приличным качеством....

Вот тогда я и увидел впервые, какую пользу дает настроенный МП.

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Вт фев 06, 2018 23:34
OlegV
Кстати, и что делает эта тема в разделе " Социально-правовой округ ‹ Улица просвещения ‹ Студенческий городок" :)?

Прямая дорога в ПО. В новый подраздел, если появится :).

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Вт фев 06, 2018 23:51
mikhailo
Сам я с Дежей (пока) не работаю. Но очень интересно :). А можно в Деже сделать такой экспорт (пп. 1 - исключить все перечисленные сегменты), но не в файл, а в отдельную базу ТМ?


Можно ненужные сегменты пометить как не для экспорта в ТМ, а дальше по старой накатанной в ТМ проекта -> ТМХ и так далее.
Надо понимать, что никто такие функции просто так делать не будет - они нужны единицам.

Батенька, да у вас опыт с МП - свыше 20 лет :). Я сам со Стайлуса начинал. В 1993 г. Тогда было только две системы англо-русских: для ИТ и бизнеса. Вот с ИТ я и начал свои игры-эксперименты с МП (PROMT). И его настройкой. Мы тогда переводили много документации по телекому для одной итальянской компании. У них исходник (на английском языке) был хорош: простые и правильные предложения. После ввода в словарь одной-двух сотен терминов машинный перевод "полез" с очень приличным качеством....

Вот тогда я и увидел впервые, какую пользу дает настроенный МП.


Вы вывод неправильный сделали. Качество вам дала не столько настройка Промта, сколько почти заточенный под ТМ исходник.
Тоже доводилось видеть пару простых английских текстов (на уровне школьных) очень неплохо переведенных машиной...
Тогда же делал кое-какие опыты по переводу на англ. Можно было получать приемлемый (на уровне школьных правил) перевод, если писать по-русски простыми, стилистически однородными предложениями. Но это создавало удручающее впечатление от исходника...

Кстати, Промт достиг бы гораздо большего, если бы к своему детищу написал модуль нормализации (адаптации под МТ) исходника с параллельным извлечением лексики для настройки глоссария.....

Re: Использование МП с CAT без подписки на МП

СообщениеДобавлено: Ср фев 07, 2018 00:12
OlegV
Можно ненужные сегменты пометить как не для экспорта в ТМ, а дальше по старой накатанной в ТМ проекта -> ТМХ и так далее.


Очень хорошо, что такая возможность есть. Я предпочитаю через PROMT прогонять именно ТМХ-файлы. Модуль пакетного перевода неплохо справляется с тегами. Плюс мне нравится иметь МП в отдельной базе (или рабочей ТМ). Конкорданс охватывает не только высокие фаззи. Но и пока "неотредактированные" (машинно переведенные) сегменты.

Вы вывод неправильный сделали. Качество вам дала не столько настройка Промта, сколько почти заточенный под ТМ исходник.


Источник не был специально заточен под МП. Просто итальянцы использовали "простой" английский в своей документации. По их же рассказам (их писателей), это они делали сознательно. В оправдание пользы настройки повторю: настроенный МП на выходе давал релевантную лексику (изначально ее вообще не было во встроенном словаре). Я тогда работал в небольшой команде переводчиков (в среднем, 10 человек). И настраивал словарь для всех документов, которые предстояло переводить. Мы все (после МП) работали с единой лексикой. То есть, единообразие лексики обеспечивалось, во многом, еще до начала пост-редактирования.

Кстати, Промт достиг бы гораздо большего, если бы к своему детищу написал модуль нормализации (адаптации под МТ) исходника с параллельным извлечением лексики для настройки глоссария


Имхо, такой модуль - это отдельная, очень сложная и дорогостоящая задача. По моему, Акронис подобной темой занимается?
А модуль извлечения лексики у них (ПРОМТа) уже давно есть. Увы, я им владею плохо.