Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Машинный перевод, или прошу помощи зала

Re: Машинный перевод, или прошу помощи зала

Сообщение Константин Лакшин » Ср авг 26, 2015 07:42

провокатор писал(а):При пользовании машпереводом производительность не повышается, а падает в разы


К приложениям (например), состоящим из наименований продукции, географических названий и адресов это тоже применимо?
Переводчик в свободное время, 24/7/365.
Константин Лакшин

 
Сообщения: 2427
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)





Re: Машинный перевод, или прошу помощи зала

Сообщение провокатор » Ср авг 26, 2015 08:18

Для этого сгодятся кошки. А машинный переводчик - дурак во всех смыслах, причем тенденции к поумнению за последние полвека не наблюдается.
"Дым костра и смех веселый,
И огнем глаза горят" (С)
провокатор

 
Сообщения: 3122
Зарегистрирован: Вт фев 10, 2009 08:31
Откуда: откуда-то оттуда
Язык(-и): de, fr -> ru, гуглом!!

Re: Машинный перевод, или прошу помощи зала

Сообщение Tanja Sholokhova » Ср авг 26, 2015 08:40

провокатор писал(а):При пользовании машпереводом производительность не повышается, а падает в разы

Слишком категоричное утверждение.
Чтобы что-то сделать, нужно это делать.
Tanja Sholokhova

 
Сообщения: 1581
Зарегистрирован: Чт апр 21, 2005 12:17

Re: Машинный перевод, или прошу помощи зала

Сообщение Maxteams » Ср авг 26, 2015 09:04

При пользовании машпереводом производительность не повышается, а падает в разы

Я согласен с высказыванием. Только нужно было добавить "у тех, кто не может творчески подходить к процессу перевода", т.е. кто "дурак во всех смыслах".
Maxteams

 
Сообщения: 46
Зарегистрирован: Чт май 12, 2011 18:55

Re: Машинный перевод, или прошу помощи зала

Сообщение OlegV » Ср авг 26, 2015 09:32

John Gower писал(а):Вставлю свои два тенге)))
4. Общая консервативность и, простите, информационная непромытость. Представление о МП на уровне "гуртовщиков мыши".


Это точно. К сожалению.

Что еще мешает? В своем посте я забыл указать "Сложность (настройки) систем МП".
В работе любая САТ на порядок проще:
- настроил систему + создал базу ТМ (для этого требуется задать макс. 100 параметров).
- чтобы ты не вводил в базу, фаззи будет работать
- прочие функции (словари, автоподстановки и др.) усложняют процесс работы, но делают его более эффективным.

МП (Rule Based) требует гораздо большего:
- примерно то же количество параметров (включая "правила перевода"),
- содержимое словарей. Фактически каждая словарная статья является параметром. И эти параметры (статьи) как то "взаимодействуют" друг с другом. Приходится разбираться с содержимым словарей (если это технически возможно). А словари содержат десятки тысяч статей (и даже сотни :))
- список DoNotTranslate (допустим, что-то ввел и .... перестали корректно переводиться нужные словосочетания :))

К сожалению, подробных и наглядных инструкций/кейсов от самих производителей МП практически нет.
Например, я уже более 20 лет применяю МП (ПРОМТ). На начальном этапе вопросов к техподдержке было великое множество. Сейчас меньше. Но, каждая последующая версия становится сложнее и гибче. Для эффективного применения МП приходится регулярно общаться с представителями компании.

Впрочем, это не означает, что я ежедневно пишу им письма :).
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Машинный перевод, или прошу помощи зала

Сообщение rms » Ср авг 26, 2015 10:22

OlegV писал(а):К сожалению, подробных и наглядных инструкций/кейсов от самих производителей МП практически нет.


Это интересная информация.
Возникает вопрос: как они вообще продают свои продукты, если польза МП неочевидна, а с самими продуктами мало кто умеет работать? Где работа по привлечению клиентов? Чем занимаются отделы продаж? То есть они сами не верят в свой продукт?
If you don't find a way to make money while you sleep, you will work until you die.
Аватара пользователя
rms

 
Сообщения: 1892
Зарегистрирован: Вс ноя 26, 2006 05:06
Откуда: 95% ภูเก็ต / 5% СПб

Re: Машинный перевод, или прошу помощи зала

Сообщение wisegirl » Ср авг 26, 2015 10:48

Константин Лакшин
Возможно, что изменить "компанию" на "общество", а также личные окончания глаголов и прилагательных с помощью МП будет проще (хотя я не знаю, как, но, как я понимаю, это возможно через настройки), чем руками или Find-Replace.
Я в целом говорю о текстах, где одно предложение может занимать страницу, а сказуемое вообще стоять в конце.
А также об оборотах, свойственных английскому языку, где сначала идет цепочка фраз с глаголом и предлогом, а дополнение потом. В русском все это необходимо разбивать и переставлять в связи с разным управлением глаголов, потому что повторение английского строя не приемлемо.
Стоит ли засорять юридические документы несущественным - не знаю, знакомые юристы с техническим образованием этого не любят
(c) mikhailo
Аватара пользователя
wisegirl

 
Сообщения: 2487
Зарегистрирован: Вт май 10, 2005 10:23
Откуда: Moscow

Re: Машинный перевод, или прошу помощи зала

Сообщение BorisNik » Ср авг 26, 2015 14:36

К премиум-сегменту не отношусь, но пробовал редактировать МП в русско-украинской паре. Языки близкородственные (общей лексики 62%, очень похожий синтаксис), обоими владею свободно.

Результат: редактирование 1500 слов МП я выполнял примерно на полчаса дольше, чем переводил аналогичные по сложности 1500 слов с нуля.

Вывод: прибегать к МП не было смысла. Местами попадались метко подобранные слова, но их можно было найти и в хорошем словаре. Разумеется, я не набил руку на постредактировании. Но набивать, чтобы выйти примерно на те же затраты времени, что и при переводе, — зачем? И еще момент: при редактировании МП всегда боязно что-либо не заметить.
BorisNik

 
Сообщения: 1664
Зарегистрирован: Пн сен 27, 2010 16:37
Откуда: Днепр
Язык(-и): Eng>Rus,Ukr

Re: Машинный перевод, или прошу помощи зала

Сообщение OlegV » Ср авг 26, 2015 17:51

rms писал(а):
OlegV писал(а):К сожалению, подробных и наглядных инструкций/кейсов от самих производителей МП практически нет.


Это интересная информация.
Возникает вопрос: как они вообще продают свои продукты, если польза МП неочевидна, а с самими продуктами мало кто умеет работать? Где работа по привлечению клиентов? Чем занимаются отделы продаж? То есть они сами не верят в свой продукт?


По своему, интересные вопросы...
Я не работаю в ПРОМТе. Кстати, в своем посте я ссылался на компании (от Систрана я, вроде, тоже не видел подробных кейсов).
Пользователи (заказчики) МП могут быть и являются разными:

1. Фрилансеры - маловероятно, что многие будут подробно разбираться с настройкой МП. Но, таковые есть. Аутсорсинг здесь, пожалуй, невозможен - неоперативно и дорого.
2. Бюро переводов - крупнейшие компании (в России) пытаются разобраться и применять МП. С очень переменным успехом. И небольшие БП встречаются в этой сфере. Настройку МП в редких случаях отдают на сторону.
3. Отделы локализации - похоже на пп. 2. В частности, см. материалы последнего TFR (Касперский + ПРОМТ).
4. Крупные отечественные и не очень компании (например, в сфере нефти и газа). У них нет нужного персонала (лингвистов). Проще совместно с поставщиком МП выбрать серверное или облачное решение под свою тематику и требования. Опытный аутсорсер (тот же ПРОМТ) качественно настроит систему. В идеале, с терминологической поддержкой компании-заказчика. И будет, при необходимости, сопровождать подобное МП-решение.
Доводилось читать, что заказчику (англоязычному) требовалось активное (письменное) общение с крупным клиентом (в ЮВА). Как вы понимаете, с английского на корейский и проч. такие языки и обратно быстро переводить переписку смогут единицы из сотрудников (на обеих сторонах). А переводить во многих случаях надо быстро. Причем:

- можно пожертвовать вылизанным качеством,
- договориться о простом "контролируемом" языке,
- договориться не использовать сленг (и мат :)),
- клиент после отправки письма будет очень рад почти сразу получить МП-ответ. Если ему суть ответа понятна, вопрос закрыт. Если нужна расшифровка, он нажимает соответствующую кнопку (прошу помощи сотрудника).
- и т.п.

и начать использовать корпоративный МП-сервер. С регулярной донастройкой системы (силами аутсорсера).

Во всех этих случаях ПРОМТу (или иному продавцу) нужно работать по-разному. Что они и делают.
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Машинный перевод, или прошу помощи зала

Сообщение OlegV » Ср авг 26, 2015 18:12

Вдогонку к "проблемам".

По собственному опыту могу сказать. Для качественной именно настройки системы МП мне нужно быть одновременно:
- немножко лингвистом (различать части речи, совершенные/несовершенные глаголы, переходные/непереходные, дополнения и прочие хитрые грамматические составляющие - я чуть позже сделаю скриншоты настроек),
- немножко пост-редактором с тематической подготовкой,
- немножко занудой (надо-надо этим заниматься, а не лениться (часто)),
- немножко спортсменом (в ходе настройки я персонально устаю гораздо быстрее и сильнее, чем в ходе перевода).

Не бог весь какая комбинация качеств, но это помогает. Заметная разница по этим направлениям, увы, будет приводить к падению качества.

Это как в танцах - партнер должен (крайне желательно):
- уверенно сам стоять на ногах,
- не "сносить" партнершу с баланса,
- слышать музыку и ритм(ы),
- прочно держать партнершу, но не пережимать ей (ему) легкие,
- не ступать по чужим ногам,
- не врубаться спиной в другие пары,
- ....
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Машинный перевод, или прошу помощи зала

Сообщение Tanja Sholokhova » Ср авг 26, 2015 18:52

OlegV писал(а):Например, я уже более 20 лет применяю МП (ПРОМТ).


OlegV писал(а):
Я не работаю в ПРОМТе.


Игра слов?
Чтобы что-то сделать, нужно это делать.
Tanja Sholokhova

 
Сообщения: 1581
Зарегистрирован: Чт апр 21, 2005 12:17

Re: Машинный перевод, или прошу помощи зала

Сообщение Alter Ego » Ср авг 26, 2015 18:58

Tanja Sholokhova писал(а):Игра слов?

"Кушать люблю, а так - не очень" (с) :wink:
Alter Ego
Читатель Розенталя
 
Сообщения: 13617
Зарегистрирован: Вс дек 04, 2005 16:25
Откуда: Петербург

Re: Машинный перевод, или прошу помощи зала

Сообщение OlegV » Ср авг 26, 2015 19:01

Татьяна, нет игры.
Вот факты:

Я начал применять МП (от ПРОМТа) в 1993 г. Тогда работал в одном из гос. НИИ, в центре переводов.
В ПРОМТе работал чуть меньше года (в 2000-2001 гг.)
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Машинный перевод, или прошу помощи зала

Сообщение Tanja Sholokhova » Ср авг 26, 2015 19:14

:facepalm:
Чтобы что-то сделать, нужно это делать.
Tanja Sholokhova

 
Сообщения: 1581
Зарегистрирован: Чт апр 21, 2005 12:17

Re: Машинный перевод, или прошу помощи зала

Сообщение OlegV » Чт авг 27, 2015 10:41

wisegirl писал(а):Константин Лакшин
Возможно, что изменить "компанию" на "общество", а также личные окончания глаголов и прилагательных с помощью МП будет проще (хотя я не знаю, как, но, как я понимаю, это возможно через настройки), чем руками или Find-Replace.
Я в целом говорю о текстах, где одно предложение может занимать страницу, а сказуемое вообще стоять в конце.
А также об оборотах, свойственных английскому языку, где сначала идет цепочка фраз с глаголом и предлогом, а дополнение потом. В русском все это необходимо разбивать и переставлять в связи с разным управлением глаголов, потому что повторение английского строя не приемлемо.


окончания глаголов и прилагательных
- это "примитивная" возможность МП.
В словаре МП все (введенные) словарные статьи, по умолчанию, отнесены к нужной части речи.
Если я добавляю или изменяю глагол, я выбираю нужный "шаблон спряжения" и проверяю все словоформы.
Если существительное - аналогично со склонением.
То же самое с прилагательными.
Наречия вводятся в канонической форме (хотя, можно вводить прилагательные, для которых одной из словоформ можно указать наречие - возможно, я выражаюсь некорректно с точки зрения лингвистики).
Я ввожу нужную словарную статью один раз. Затем, система подставляет ее в тексте тысячи раз. С нужным окончанием.

Я в целом говорю о текстах, где одно предложение может занимать страницу, а сказуемое вообще стоять в конце.
А также об оборотах, свойственных английскому языку, где сначала идет цепочка фраз с глаголом и предлогом, а дополнение потом.


В последних версиях ПРОМТа содержится достаточно широкий набор "правил перевода", которые позволяют обрабатывать такие конструкции. Не все, но многие.
См. пример ниже.

clauses_1.jpg
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Машинный перевод, или прошу помощи зала

Сообщение wisegirl » Чт авг 27, 2015 11:47

Я боюсь, мы о разных вещах говорим.
Меня интересуют такие выражения, как:
"in the form of, or represented or evidenced by, bonds, notes, debentures, loan stock or other securities which for the time being are, or are capable of being, quoted, listed or dealt in or traded on ony stock exchange or over-the-counter or other securities market"
И это еще не самый сложный вариант нагромождения. Как я говорила, такого рода цепочки могут растягиваться на полстраницы.
Когда ПРОМТ научится обрабатывать такого рода вещи, я начну серьезно рассматривать возможность его использования.
Стоит ли засорять юридические документы несущественным - не знаю, знакомые юристы с техническим образованием этого не любят
(c) mikhailo
Аватара пользователя
wisegirl

 
Сообщения: 2487
Зарегистрирован: Вт май 10, 2005 10:23
Откуда: Moscow

Re: Машинный перевод, или прошу помощи зала

Сообщение esperantisto » Чт авг 27, 2015 11:59

По моему опыту, в средне- и долгосрочной перспективе систему машинного перевода можно отдрессировать и получать на выходе вполне приличные результаты на лексически и синтаксически однородных текстах. Но в такой ситуации, разумеется, и система автоматизации перевода будет давать хорошие результаты. Если же тексты разнообразные, то, разумеется, МП проигрывает. Впрочем, приблизительно это уже высказано.

Промт где-то с версии 8, ЕМНИП, включает, пусть и несколько ограниченно, работу с накопителями переводов, и, казалось бы, вот она — мечта: лучшее из двух миров. Но есть пару но:
а) количество языков/направлений перевода в Промте весьма ограничено;
б) самым существенным препятствием для применения Промта я бы назвал невозможность быстро и легко подключать глоссарии заказчика: вносить ручками даже пару сотен терминов в пользовательский словарь — затрахаешься, а если счёт оных идёт на тысячи — подобное занятие явно не имеет смысла;
в) а если глоссарий обновился, что делать? Заново всё переводить с изменённым пользовательским словарём и редактировать всё это?
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7035
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Re: Машинный перевод, или прошу помощи зала

Сообщение OlegV » Чт авг 27, 2015 12:22

wisegirl писал(а):Я боюсь, мы о разных вещах говорим.
Меня интересуют такие выражения, как:
"in the form of, or represented or evidenced by, bonds, notes, debentures, loan stock or other securities which for the time being are, or are capable of being, quoted, listed or dealt in or traded on ony stock exchange or over-the-counter or other securities market"
И это еще не самый сложный вариант нагромождения. Как я говорила, такого рода цепочки могут растягиваться на полстраницы.
Когда ПРОМТ научится обрабатывать такого рода вещи, я начну серьезно рассматривать возможность его использования.


Мы говорим о схожих вещах. Но, отличающихся своим уровнем сложности.

Думаю, что Rule Based система сильно Вам здесь не поможет. При нужной настройке словаря (когда все одиночные термины и словосочетания будут заранее введены в словарь) получите искомую лексику. Но, придется много переносить в рамках сегмента. Хотя, при быстрой работе на клавиатуре у меня скорость работы в таком режиме (cut&paste) получается быстрее, чем набор с нуля. Плюс - я уже имею релевантную лексику.

Остается другой тип МП - SMT (статистический). С ним напрямую я не работал (сам не тренировал систему). Но, на общем уровне комментарий дать попробую. Для начала мне понадобится Ваша помощь. Не могли бы ответить на пару вопросов?

- Как часто (примерно) встречаются подобные фразы в Ваших заказах?
- Существуют ли ситуации, когда одному (подобному) исходнику должны соответствовать несколько переводов?
- Есть ли в пределах таких фраз устойчивые многословные куски ("чанки"), которые регулярно встречаются в исходниках?
- Насколько эффективно помогает САТ (примерно) на таких фразах?
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Машинный перевод, или прошу помощи зала

Сообщение wisegirl » Чт авг 27, 2015 12:59

1) Постоянно.
2) Бывают ситуации, в которых отдельные слова в другом контексте могут переводиться по-другому и, следовательно, требовать в русском другого предлога или перестройки всего предложения в целом, а иногда разбивки на два предложения.
3) Нет.
4) Не помогают, за исключением повторения в одном и том же документе.
Иными словами, такого рода фразы встречаются часто, состоят из разных слов и требуют индивидуального подхода, потому что в русском их надо разбивать и каждый раз учитывать управление (глагол + предлог).
Стоит ли засорять юридические документы несущественным - не знаю, знакомые юристы с техническим образованием этого не любят
(c) mikhailo
Аватара пользователя
wisegirl

 
Сообщения: 2487
Зарегистрирован: Вт май 10, 2005 10:23
Откуда: Moscow

Re: Машинный перевод, или прошу помощи зала

Сообщение OlegV » Чт авг 27, 2015 13:18

В Вашем случае (на сегодня) МП не сможет существенно помочь.
Если бы САТ заметно помогала, можно было бы предложить вариант с тренировкой системы SMT на основе Вашей базы ТМ.

Моя тематика: ИТ + Телеком. Как правило, (технические) тексты здесь существенно проще.
Я стремлюсь к тому, чтобы в моем словаре МП содержалась вся релевантная лексика (как минимум, на уровне заказа на перевод). Во время перевода (пост-редактирования) после ПРОМТа я, главным образом, меняю стиль и "порядок слов" в целевом предложении. Лексику не меняю - она автоматически подставляется. В таком режиме моя скорость гораздо выше, чем при наборе с нуля.

К сожалению, русскоязычная терминология "плавает". Приходится создавать и вести отдельные словари (для разных заказчиков). Но, на "плавающую" часть терминологии приходится, от силы, 5%.

Вы можете оценить примерный объем тематической лексики, которую Вы регулярно применяете? Тысячи или десятки тысяч?

В моем случае:
- базовый словарь МП (ИТ+ Телеком) > 70 000 словарных статей. Но, это за 20 лет.
- выделенные словари по заказчикам - в среднем, несколько сотен словарных статей (перевод которых отличается от базового варианта). Есть два исключения - по несколько тысяч.
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Пред.След.


Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Полезное программное обеспечение. Аллея Бродяги

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 7