Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Вебинар по чистке и оптимизации ТМ/ТМХ

Проф. организации, семинары, конкурсы и др. события

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Вт апр 08, 2014 09:21

Константин, то, что ты пишешь, оно, конечно, тоже ужасно. Но во сто крат ужаснее когда требуемое hereinafter referred to подхвачено хотя бы с одной стороны каким-нибудь обрывком тега (или кода, без разницы) что-то типа <span>hereinafter referred tolt;/spangt; Никогда такой сегмент не проконкордится даже на самой низкой фуззи (пардон мой французский)

Нам с тобой вообще нужно состыкнуться на эту тему. У тебя теория, у меня практика, может получиться хороший сплав. Тут только вот что: бедолага пхелевоцек, влетевший в эти непонятки с ТМ денег за науку заплатить просто обязан. Но не будем же мы грабить братьев и сестёр. Так что пусть платят символическую цену. Но - платят. Думаю, цена билета в кино очень правильная. А на ютюбе по факту будут тизеры. Хорошие, полезные, но - тизеры. Остальные умности, кому оно надо, добираются уже на персональных занятиях (сколько там стоит час репетитора по английскому в Москве?) Ну, обсудим еще.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ





Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение esperantisto » Вт апр 08, 2014 09:29

Константин Лакшин писал(а):…вменяемый инструмент должен бы предлагать вариант «предварительной оптимизации», т. е. создания временной ТМ, в которую из миллиона копируются только сегменты, «более-менее» (если в процентах, то как пользователь скажет) имеющее отношение к переводимой тысяче слов.


OmegaT, собственно, так и работает.
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7035
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Константин Лакшин » Вт апр 08, 2014 09:34

esperantisto писал(а):OmegaT, собственно, так и работает.


А подробнее? Из описаний (и небольшого опыта работы) этого не понял.
Переводчик в свободное время, 24/7/365.
Константин Лакшин

 
Сообщения: 2427
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Greenvalley » Вт апр 08, 2014 10:57

А вот чем не опция?

Изображение
Аватара пользователя
Greenvalley

 
Сообщения: 431
Зарегистрирован: Чт мар 29, 2007 12:24
Откуда: Черногория
Язык(-и): Eng-Rus, Rus-Eng

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение esperantisto » Вт апр 08, 2014 11:14

Константин Лакшин, создал новую тему:
Как OmegaT работает с накопителями переводов.
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7035
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение John Gower » Вт апр 08, 2014 13:20

Вот тут любопытные вещи пишут: http://dl.acm.org/citation.cfm?id=992736
Last grace of style
Аватара пользователя
John Gower

 
Сообщения: 1413
Зарегистрирован: Ср июл 21, 2010 14:09
Блог: Просмотр блога (8)
Язык(-и): en-ru, ru-en, de-ru, de-en

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Вт апр 08, 2014 15:16

esperantisto писал(а):
Константин Лакшин писал(а):…вменяемый инструмент должен бы предлагать вариант «предварительной оптимизации», т. е. создания временной ТМ, в которую из миллиона копируются только сегменты, «более-менее» (если в процентах, то как пользователь скажет) имеющее отношение к переводимой тысяче слов.


OmegaT, собственно, так и работает.


Greenvalley писал(а):А вот чем не опция?


Собственно, да. МемоКью предлагает вполне удобное решение в виде создания Project TM. Если мы одно и то же имеем в виду. С ОмегойТ, к сожалению, не работаю, но "кошка" весьма популярна, судя по количеству материалов по ней в Интернете. Видел на Ютюбе несколько (навскидку, вполне толковых) подкастов по работе в ней. Думаю, если кто-нибудь из опытных пользователей не поленится сделать ролик со своим опытом работы в Омеге, полезно будет многим.

John Gower писал(а):Вот тут любопытные вещи пишут:


Очень много букв. :-)
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение John Gower » Вт апр 08, 2014 18:42

Ну вот та же студия создаёт у проектной базы такую "подбазку" из которой, как я понимаю, она тянет чёткие и нечёткие совпадения внутри проверяемого файла. Тут разница в том, какой алгоритм использовать: символьные совпадения или частеречной. Второй объективно лучше, но предполагает наличие в кошке ещё и очень продвинутого модуля морфосинтаксической разметки, что дорого и требует на порядок больших вычислительных ресурсов.
Last grace of style
Аватара пользователя
John Gower

 
Сообщения: 1413
Зарегистрирован: Ср июл 21, 2010 14:09
Блог: Просмотр блога (8)
Язык(-и): en-ru, ru-en, de-ru, de-en

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Константин Лакшин » Вт апр 08, 2014 20:16

Валерий Афанасьев писал(а):Собственно, да. МемоКью предлагает вполне удобное решение в виде создания Project TM.


Да, вижу, что погорячился.
Переводчик в свободное время, 24/7/365.
Константин Лакшин

 
Сообщения: 2427
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение chudo » Вт апр 08, 2014 21:30

John Gower писал(а):Ну вот та же студия создаёт у проектной базы такую "подбазку" из которой, как я понимаю, она тянет чёткие и нечёткие совпадения внутри проверяемого файла. Тут разница в том, какой алгоритм использовать: символьные совпадения или частеречной. Второй объективно лучше, но предполагает наличие в кошке ещё и очень продвинутого модуля морфосинтаксической разметки, что дорого и требует на порядок больших вычислительных ресурсов.

Да, а если несколько баз подключено к проекту, то из каждой базы создается такая проектная ТМ ("подбазка", project ТМ). Это ускоряет работу при наличии большой (больших) ТМ. Я же правильно поняла, что Вы говорите про Trados Studio?
Но побитые тегами сегменты, конечно, не попадут ни в какой анализ, о чем Валерий пишет выше.
Тандем "вменяемый заказчик+вменяемый переводчик" в состоянии свернуть горы. (Шубин)
chudo

 
Сообщения: 3303
Зарегистрирован: Пн авг 23, 2004 15:20
Откуда: Ростов-на-Дону

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Константин Лакшин » Ср апр 09, 2014 06:44

John Gower писал(а):Ну вот та же студия создаёт у проектной базы такую "подбазку".


И тут погорячился.

Единственное сколь-либо потенциально правдоподобное оправдание в том, что раньше в версии Freelance такого много лет не было.

(Что, кмк, странновато: "подбазка" нужнее всего именно переводчику, если не хочется ждать, пока программа жует "взрослую" ТМ, а получается, что переводчик именно этого функционала лишен, а если "подбазки" все же создаются, то вся морока достается администратору в кратном размере.)
Переводчик в свободное время, 24/7/365.
Константин Лакшин

 
Сообщения: 2427
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Константин Лакшин » Ср апр 09, 2014 07:10

John Gower писал(а):какой алгоритм использовать: символьные совпадения или частеречной. Второй объективно лучше, но предполагает наличие в кошке ещё и очень продвинутого модуля морфосинтаксической разметки, что дорого и требует на порядок больших вычислительных ресурсов.


А дороговизну и разницу в ресурсах обосновать можете?

На мой взгляд, в нынешнем (2014-ом) году это не так...

1. Кошка отличается от поисковика или МП тем, что за ней присматривает вменяемый/специально обученный человек, т. е. не обязательно, чтобы модуль морфосинтаксической разметки был особо продвинутым.

2. В ту же Омегу встроено/встраивается (как минимум) два как бы "модуля морфосинтаксической разметки": токенизатор от Apache и Language Tool (http://www.languagetool.org). В обоих случаях -- открытое ПО. (К вопросу о дороговизне.)

3. Пользующиеся кошками далеко не всегда (обычно не) сталкиваются со "взрослыми" корпусами, т. е.  "на порядок" вписывается в "предварительную обработку" в духе "create project TM" и выливается не в сутки или часы.
Переводчик в свободное время, 24/7/365.
Константин Лакшин

 
Сообщения: 2427
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение esperantisto » Ср апр 09, 2014 11:44

Константин Лакшин писал(а):В ту же Омегу встроено/встраивается (как минимум) два как бы "модуля морфосинтаксической разметки": токенизатор от Apache и Language Tool


LT там работает в виде подключаемого модуля и в саму OmegaT функционал по разбору слова не передаёт. OmegaT в зависимости от языка может использовать генераторы меток Lucene, Snowball или на основе Hunspell (при наличии соответствующих словарей).
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7035
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение John Gower » Ср апр 09, 2014 17:44

Насколько я понимаю эту тему с "подбазой" в Студии 2011, то межсегментные совпадения разной степени точности внутри файла сначала уходят туда, а большая база скорее используется для "предперевода" на этапе создания проекта. Это в какой-то степени объясняет методику обучения студии через создание проекта и предварительные процедуры предперевода.
Свободный парсер не обязательно будет хорошо "жевать" файлы в которых есть неизвестная ему структурная информация.
Ну вот пользователи MyMemory, особенно те, кто генерирует свой ключик API частенько получают в качестве 100% совпадения результаты не очень удачного парсинга, условно в MM ушёл мусорный сегмент, который система как-то разобрала и потом выдала назад. Это не относится к результатам типа ::MT!
Last grace of style
Аватара пользователя
John Gower

 
Сообщения: 1413
Зарегистрирован: Ср июл 21, 2010 14:09
Блог: Просмотр блога (8)
Язык(-и): en-ru, ru-en, de-ru, de-en

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Ср апр 09, 2014 22:48

Константин Лакшин писал(а):По-моему, плюшку/стрелку неплохо было бы перевести на разработчиков.


Да перевести-то можно. Но мы вообще не для Коня Сферического, в Вакууме тут вещаем, а для простых людей. У меня база ТМ на 2+ миллиона сегментов, приехало 50 страниц договора на обеспечение телекоммуникационных услуг для нашего офиса, фуззи - 5%. На кого я, Валерий Афанасьев, буду переводить стрелки, если заказчика грозят уволить за несвоевременное обращение к переводчику (а он и не знал, что договор в базу лигал дипартмента не выложен еще два года назад и только сейчас на аудите всплыло). То есть, как бы понятно, да? Живые ситуации и живые люди на имеющемся инструментарии и умении обращаться с ним с минимальными затратами времени. Можно камлать к разработчикам сколько влезет, но решение нужно вот прямо сейчас. Т.е., меч из булатной стали, но потом, это хуже, чем лом из простого железа, но сейчас.

Константин Лакшин писал(а):Когда имеется новый документ объемом в 1000 слов и ТМ на миллион сегментов (неважно, насколько захламленная)


Вот как раз, черт возьми, это-то и важно!!! Ибо Entire Agreement. (с точечкой в конце) и Entire Agreement (без точки в конце) в МемоКью дадут фуззи едва ли 85%. Или 74%. А <<span>Entire Agreement</span>> не дадут никакого фуззи вообще. Т.е., база (или "накопитель переводов") обязана быть максимально очищенной от любого (!!) мусора.

Константин Лакшин писал(а):Ведь тормоза в основном из-за того, что при каждом переходе к новому предложению кошка «листает» весь миллион


"Кошка" и 50 гигабайт пролистает в считанные секунды. У меня Архивариус3000 "держит" индекс на 100 ГБ исходников и ничего, не мучается, крутит. Для "кошки", ТМ ли, важнее другое: она ищет полное, м.б. даже побайтное соответствие: есть знак табуляции в 2.1. Арендодатель обязуется - все, конец конкордансу. Максимум 74% . Ну, МемоКью, по кр. мере, так себя ведет. А он, этот знак табуляции - невидим. Что делать будем? Совершенно верно, вычищать в тех инструментах, в которых он видим.

Как-то так.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Константин Лакшин » Чт апр 10, 2014 08:31

Валерий Афанасьев писал(а):Ибо Entire Agreement. (с точечкой в конце) и Entire Agreement (без точки в конце) в МемоКью дадут фуззи едва ли 85%. Или 74%.


Спасибо, что в очередной раз напомнили про то, «как хорошо у нас в деревне».

У меня-то инструмент, которому на теги в принципе наплевать. Да и алгоритм поиска ближе к Архивариусу (а не к посимвольному сравнению).
Переводчик в свободное время, 24/7/365.
Константин Лакшин

 
Сообщения: 2427
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Чт апр 10, 2014 09:15

Константин Лакшин писал(а):У меня-то инструмент, которому на теги в принципе наплевать. Да и алгоритм поиска ближе к Архивариусу (а не к посимвольному сравнению).


Вот, выбор правильного инструмента под конкретный набор задач - это архиважно.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Константин Лакшин » Сб апр 12, 2014 09:18

Валерий Афанасьев писал(а):Нам с тобой вообще нужно состыкнуться на эту тему. У тебя теория, у меня практика.


У меня теория? Возможно, так оно и есть.

Ты бей штыком, а лучше - бей рукой: Оно надежней, да оно и тише. (с) Высоцкий.
Переводчик в свободное время, 24/7/365.
Константин Лакшин

 
Сообщения: 2427
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Константин Лакшин » Пн апр 14, 2014 06:41

А мне запись вебинара не показывают. Грят, мол, автор удалил.

Так что придется рассуждения про теорию и практику продолжить на пустом месте.

Моя «теория» крайне проста: «бей рукой». Или хотя бы научись бить рукой, а там уж можно бить чем угодно, что под руку подвернется.

Расшифровка «бей рукой» (неполная)...

1. ТМХ – формат вполне себе простой и логичный. Достаточно прочитать описание и взглянуть на пару примеров, чтобы стало понятно, как произвольную таблицу превратить в ТМХ (или наоборот), не пользуясь специально обученными программами. (А это бывает полезно, хотя бы потому, что ТМ на пару со словарем (ТВ) того же состава зачастую решают больше проблем, чем только ТМ.) Примерно то же самое (чтобы стало понятно) относится и к убиению дубликатов и полностью прописанных тегов (с обрывками разбираться сложнее).

2. Существование специально обученной программы означает стопудово, что вначале был человек, который посмотрел, например, на те же теги и сформулировал настолько тупые правила их выявления и отделения от собственно текста, что усвоить их может даже компьютер. Из чего следует, что выведение подобных правил должно бы быть под силу даже переводчику.

3. В принципе все проблемы чистки ТМ/ТМХ достаточно безболезненно решаются в Ворде. (Хотя именно тут и возникает некоторый момент «теории», т. к. файлы/таблицы такого размера ему не совсем по зубам, из-за чего приходится пользоваться текстовыми редакторами для программистов и т. п.)
Переводчик в свободное время, 24/7/365.
Константин Лакшин

 
Сообщения: 2427
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Пн апр 14, 2014 11:38

Константин Лакшин писал(а):А мне запись вебинара не показывают. Грят, мол, автор удалил.


Будет перезаписано и перевыложено. Постараюсь "как только, так сразу". Мешает то, о чем я написал в ветке "А что вы сейчас переводдите?" Постараюсь на этой неделе. По существу ничего не изменится, но немного изменится форма.

Константин Лакшин писал(а):3. В принципе все проблемы чистки ТМ/ТМХ достаточно безболезненно решаются в Ворде. (Хотя именно тут и возникает некоторый момент «теории», т. к. файлы/таблицы такого размера ему не совсем по зубам, из-за чего приходится пользоваться текстовыми редакторами для программистов и т. п.)


Вот-вот. Попробуй, засунь в Ворд таблицу на 500 тысяч строк. Именно поэтому приходится пользоваться другими инструментами. Оттого, собственно, и появился вебинар и ролик по его следам, что проблемы возникают на многотысячниках, проблемы эти многообразны, не всегда очевидны, база не фуззится и не конкордится, и вообще не работает, всё плохо и т.д. Второй аспект: не каждый переводчик в состоянии не то, что сам написать макрос, но и даже найти готовый в Интернете и запустить его у себя на работу.

Поэтому я все же буду делать в расчете именно на самые простые и понятные всем решения. Продвинутые товарищи и без меня справятся и/или найдут ответ в форумах. А для начинающих (в данном вопросе) необходимо все разжевать и по полочкам разложить с нуля и макимально просто, даже примитивно. Это - концептуальный подход, так сказать.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Пред.След.


Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Площадь событий

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 7