Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Эффективность CAT при работе с текстовыми ТМ

Эффективность CAT при работе с текстовыми ТМ

Сообщение mikhailo » Сб ноя 03, 2018 23:34

Небольшая на 1 стр статейка по оценке эффективности CAT на примере DOC(X) файла и чистой текстовой ТМХ.
Статья
https://www.upload.ee/files/9149910/Effect_RUS.pdf.html
Файлы (DOCX и ТМХ)
https://www.upload.ee/files/9149904/ADR_EN-RU.rar.html

По полученным мною цифрам выводы:
1. Лучшая САТ ...(в статье)
3. Статистика Традоса, которую любят БП, по сравнению со статистикой MS Word 2010, ... (в статье)

Не исключаю что кто-то найдёт/имеет настройки, дающие лучший результат. Просьба делиться в топик.
Также интересны результаты других САТ, в первую очередь нативно работающей с plain-text TM Omega.
В следующих планах проверка перекрёстной эффективности ТМХ из разных САТ в других САТ.

Представителям Традоса - отдельное ФИ. Транспонированная статистика с невозможностью её сохранения в HTML/Excel - решение весьма спорное

Ну и как всегда - замечания, советы, подсказки, исправления ошибок приветствуются.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД





Re: Эффективность CAT при работе с текстовыми ТМ

Сообщение rms » Вс ноя 04, 2018 00:02

mikhailo писал(а):1. Лучшая САТ ...(в статье)


"Лучшая" - чем и для кого? Я бы этого слова избегал.

Правила сегментации у каждого инструмента разные. Вы не пробовали их приводить к общему знаменателю?

TS и MQ конкретно режут статистику по пробелам, по сравнению с MS Word


У вас для всех трех инструментов в последней строке приведена статистика по символам с пробелами? Точно? А то по цифрам выглядит так, что у DVX3 статистика с пробелами, а для двух других инструментов - нет.

Ну и надо разбираться с тем, почему у DVX3 такой недобор по словам. Это интересно.
If you don't find a way to make money while you sleep, you will work until you die.
Аватара пользователя
rms

 
Сообщения: 1892
Зарегистрирован: Вс ноя 26, 2006 05:06
Откуда: 95% ภูเก็ต / 5% СПб

Re: Эффективность CAT при работе с текстовыми ТМ

Сообщение mikhailo » Вс ноя 04, 2018 00:32

Правила сегментации у каждого инструмента разные. Вы не пробовали их приводить к общему знаменателю?

Настройки стандартные (или дефолтные на новоязе). Может только в деже включена доп разбивка по табуляциям. (в файле 105 табуляций - пусть на столько будет меньше сег в деже - всё равно больше всех, разве что ещё статистику чуть ухудшить может - надо проверить)

У вас для всех трех инструментов в последней строке приведена статистика по символам с пробелами? Точно? А то по цифрам выглядит так, что у DVX3 статистика с пробелами, а для двух других инструментов - нет.


Статистика приведена стандартная для каждой кошки.

Не думаю, что в БП, упоминающих расценки по статистике традоса, манагеры заморачиваются с её настройкой (а точнее вижу обратное).
Поэтому цифры и вызвали смешанное чувство - ну ладно бы там разница на такой объём до 10 тысяч - а 40 (больше 20 страниц) ни в какие рамки не лезет...

"Лучшая" - чем и для кого? Я бы этого слова избегал.


На днях закончил ознакомление и перевод полного хелпа к MQ, который за время работы успел вырасти с 8.3 на 8.6.5 и, могу сказать, по описанному функционалу MQ тоже лидер. Вопрос только в том, как этот функционал работает.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Эффективность CAT при работе с текстовыми ТМ

Сообщение rms » Вс ноя 04, 2018 12:46

mikhailo писал(а):Настройки стандартные (или дефолтные на новоязе).


Тогда можно говорить об эффективности стандартных настроек. Интересно, что снижает эффективность и как это можно обойти - например, какие исключения прописать в MQ, чтобы он(а) сегментировал(а) еще лучше.

mikhailo писал(а):Статистика приведена стандартная для каждой кошки.


Если правильно помню, и Традос, и Мемокью по дефолту выдают статистику без пробелов.

mikhailo писал(а):Не думаю, что в БП, упоминающих расценки по статистике традоса, манагеры заморачиваются с её настройкой (а точнее вижу обратное).


В этом месте переводчику (разбирающемуся в своих инструментах) надо говорить менеджеру о том, что договаривались "с пробелами", а менеджер выдал статистику "без пробелов", и требовать пересчитать.

...по описанному функционалу MQ тоже лидер


Я сам работаю в MQ. Но переводчику - судя по вашей статье - выгоднее взять заказ "по статистике Традоса" (а работать в MQ).
Ну и, как бы, вы рассматриваете три самых, пожалуй, "мощных" инструмента (при этом самых дорогих для переводчика), но они не являются самыми популярными. По общемировой статистике Вордфаст будет на втором месте (Дежавю на четвертом). А по постсоветской - вообще неизвестно, что будет более популярным. + Я бы для интереса рассмотрел какой-нибудь Смарткат.
If you don't find a way to make money while you sleep, you will work until you die.
Аватара пользователя
rms

 
Сообщения: 1892
Зарегистрирован: Вс ноя 26, 2006 05:06
Откуда: 95% ภูเก็ต / 5% СПб

Re: Эффективность CAT при работе с текстовыми ТМ

Сообщение mikhailo » Вс ноя 04, 2018 13:20

Тогда можно говорить об эффективности стандартных настроек. Интересно, что снижает эффективность и как это можно обойти - например, какие исключения прописать в MQ, чтобы он(а) сегментировал(а) еще лучше.


Нестандартные настройки, судя по форумам, использует 2-3%. Поэтому, ИМХО, можно говорить об эффективности САТ. По поводу MQ, полагаю, улучшение может дать грамотная настройка списка сокращений, разбивки по табуляции (честно говоря, учитывая массу криворуких верстальщиков, верстающих отступы и табличные данные табуляциями, мне очень странно видеть, что большая тройка CAT не разбивает сегменты по табуляциям), а также настройка совпадений - в частности удаление/неиспользование штрафов за различие форматирования, или если текст импортируется окольными путями с форматированием тегами - разрешительной настройкой несовпадения тегов.

Если правильно помню, и Традос, и Мемокью по дефолту выдают статистику без пробелов.

В таком случае надо честно объявить, что по статистике TS стандартная переводческая страница должна быть 1500 зн.

В этом месте переводчику (разбирающемуся в своих инструментах) надо говорить менеджеру о том, что договаривались "с пробелами", а менеджер выдал статистику "без пробелов", и требовать пересчитать.


Тут уже кто как договорился - если БП берёт расценки из резюме, где просит указывать из на 1800 с пробелами, а статистику выдаёт из Традоса - видимо да.

Я сам работаю в MQ. Но переводчику - судя по вашей статье - выгоднее взять заказ "по статистике Традоса" (а работать в MQ).
Ну и, как бы, вы рассматриваете три самых, пожалуй, "мощных" инструмента (при этом самых дорогих для переводчика), но они не являются самыми популярными. По общемировой статистике Вордфаст будет на втором месте (Дежавю на четвертом). А по постсоветской - вообще неизвестно, что будет более популярным. + Я бы для интереса рассмотрел какой-нибудь Смарткат.


Выгоднее по Ворд. Мне тоже хотелось бы увидеть статистику по Транзиту, Акроссу, Вордфасту, Кафетрану, Омеге, Мемсырцу и Смарткату.

Проверю цифры по DVX, переведу на английский и выложу на проз - может там народ даст больше пищи для размышлений...
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Эффективность CAT при работе с текстовыми ТМ

Сообщение AsIs » Вс ноя 04, 2018 14:17

mikhailo писал(а):Транспонированная статистика с невозможностью её сохранения в HTML/Excel - решение весьма спорное

Может, я не так что-то понял, но почему "с невозможностью"? Традос сохраняет файл статистики в форматах xlsx, html, mht и xml.

P.S. Спасибо за элайн, в хозяйстве пригодится. 23 тыщи+ юнитов... Впечатляет.
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Эффективность CAT при работе с текстовыми ТМ

Сообщение mikhailo » Вс ноя 04, 2018 17:07

Может, я не так что-то понял, но почему "с невозможностью"? Традос сохраняет файл статистики в форматах xlsx, html, mht и xml.


Признаю - затупил вчера. Смотрю я на вкладку статистика анализа и не вижу кнопки сохранения, ни тупо скопировать цифры, ни перехода в Отчёты, а мозгу перейти в них не хватило...
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Эффективность CAT при работе с текстовыми ТМ

Сообщение mikhailo » Вс ноя 04, 2018 17:17

P.S. Спасибо за элайн, в хозяйстве пригодится. 23 тыщи+ юнитов... Впечатляет.


Много видел разных..... Пользы почти 0 - разве может где терминологию искать не надо. А так в основном - или бесполезна, или стиль такой, что лучше всё заново переписать..... В этой хватает ошибок в химической части.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Эффективность CAT при работе с текстовыми ТМ

Сообщение mikhailo » Пн ноя 05, 2018 01:25

Н-да.
As is спасибо, что обратили внимание.... Как оказалось в спешке и усталости умудрился в TS и в файл для примера не тот ТМХ загнать. С правильным ТМХ лидером, в группе повторы-100%-95% с заметным отрывом неожиданно стала TS.
Поверхностный анализ сей трансформации показал причину успеха ТС - если сегмент целиком имеет одинаковое форматирование, даже отличающееся от оригинала, ТС смело принимает такой сегмент за 100% совпадение, что не делает ни MQ, ни DVX.
MQ вдобавок вытащил Chapter и Part из полей автоматической нумерации заголовков.

Завтра еще раз проверю и выложу последние результаты и правильные файлы для повтора эксперимента.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Эффективность CAT при работе с текстовыми ТМ

Сообщение mikhailo » Пн ноя 05, 2018 21:26

Конечные цифры и правильные файлы
https://www.upload.ee/files/9157041/IMD ... S.rar.html
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Полезное программное обеспечение. Аллея Бродяги

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 10