Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Вебинар по чистке и оптимизации ТМ/ТМХ

Проф. организации, семинары, конкурсы и др. события

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение esperantisto » Пн апр 14, 2014 11:43

Константин Лакшин писал(а):3. В принципе все проблемы чистки ТМ/ТМХ достаточно безболезненно решаются в Ворде.


В принципе их можно и в vim достаточно безболезненно решить. Однако нужно ли при наличии специальных инструментов?
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7035
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be





Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Константин Лакшин » Вт апр 15, 2014 06:06

esperantisto писал(а):В принципе их можно и в vim достаточно безболезненно решить. Однако нужно ли при наличии специальных инструментов?


Решать не нужно.

Понимать, что можно (и достаточно безболезненно), нмв, нужно.
Переводчик в свободное время, 24/7/365.
Константин Лакшин

 
Сообщения: 2429
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Andrew Manson » Ср апр 16, 2014 15:13

Если я правильно понимаю, проблема очистки баз стоит довольно остро. Константин Лакшин предлагал перевести стрелки на разработчиков, но видимо его не так поняли. Насколько я понял, он имел в виду нанять/заплатить разработчику для создания относительно универсального средства(утилиты) для очистки баз от разного мусора. В принципе я мог бы взяться за это дело, вопрос лишь во времени и стоимости вопроса. Про произвольные базы от разных кошек не говорю, имею в виду лишь универсальные форматы, например ТМХ.
Со стороны предварительное общее ТЗ для меня выглядит таким образом: Готовый инструмент для очистки должен легко настраиваться на любые правила, не сильно в этом зависеть от разработчика (или совсем не зависеть): прямое сравнение, регулярные выражения. При необходимости для более сложных случаев пользователь должен иметь возможность писать простую логику/скрипты для чистки/замены. Плюсы - пользователи могут обмениваться скриптами и настройками. Для более сложных алгоритмов можно снова привлекать разработчика, в том числе другого, то есть код программы открыт. Скажем так - основное вложение в разработку только на начальном этапе. Желательно(но не обязательно) чтобы программа была многоплатформенной, то есть чтобы работала и под виндой и под линуксом и под маком, но это как получится, зависит от выбранного средства разработки. У меня свои предпочтения. Если только под винду - на C#, под все платформы (универсализм) - NodeJs (JavaScript). Ответ на возможный недоуменный вопрос насчет JavaScript и его медленности - под NodeJs он компилится в рантайме и работает очень быстро.

Что скажете?
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение mikhailo » Ср апр 16, 2014 19:22

Andrew Manson

А идея ТМ уже заброшена?
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Andrew Manson » Ср апр 16, 2014 19:58

mikhailo писал(а):Andrew Manson

А идея ТМ уже заброшена?

В смысле? Не понял вопроса.
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Ср апр 16, 2014 20:08

Andrew Manson, рекомендую в качестве образца, к чему следует стремиться, посмотреть на Heartsome TMX Editor. Сможете сделать такой же (ну и там еще пару-тройку рюшечек добавить нужно), но втрое дешевле - будет вам ура и спасибо от многих переводчиков.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение mikhailo » Ср апр 16, 2014 20:23

В смысле? Не понял вопроса.


В смысле развитие МТ2007? Оно как-то остановилось.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Andrew Manson » Ср апр 16, 2014 20:31

Валерий Афанасьев писал(а):Andrew Manson, рекомендую в качестве образца, к чему следует стремиться, посмотреть на Heartsome TMX Editor. Сможете сделать такой же (ну и там еще пару-тройку рюшечек добавить нужно), но втрое дешевле - будет вам ура и спасибо от многих переводчиков.

Глянуть-то можно. Только весь вопрос в интересе. Я бы взялся за разработку за мелкую мзду, ибо времени или нет делать бесплатно или оно занято зарабатыванием денежек. Самому мне этот инструмент не нужен, ибо непосредственно переводами давно уже не занимаюсь. Я потому и написал про "нанять" программиста. Или меня или на фриланс-площадках, благо их много.
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Andrew Manson » Ср апр 16, 2014 20:36

mikhailo писал(а):
В смысле? Не понял вопроса.

В смысле развитие МТ2007? Оно как-то остановилось.

Ну... МТ2007 давно заброшен. Но вместо него введен в строй Catnip - наследник МТ2007. В соответствующей ветке есть инфа. В принципе рабочая версия, Константин Лакшин ею пользуется уже больше полугода. Вопросы по использованию можно задавать ему. Сейчас дальнейшее улучшение приостановлено снова по финансовым причинам. Кстати, Константин где-то с полгода оплачивал мне доведение Catnip'а до ума, так что там многое реализовано по его запросам, а сейчас он уже не может платить, а я не могу заниматься этим в свободное время за просто так. Как уже сказал, в последнее время как-то тяжело стало с финансами, приходится постоянно заниматься только тем, что их как-то приносит...
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Сб апр 19, 2014 20:13

Наконец-то сподобился переделать. Часть 1. Введение. Знакомство с видами дефектов ТМ. Знакомство с Okapi Framework. Знакомство с кодами. 16 минут. В следующей части будет собственно практическое занятие.

Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Пн апр 21, 2014 00:03

Часть 2.
35 минут.
Извиняюсь за качество записи, это не я, это ютюб так кладет.

М.б., получилось несколько занудно, но переделывать уже не буду. Записать ролик, это, как оказалось, не так и просто.

Будут вопросы по существу - отвечу. Третья часть - полная очитска tmx в Экселе - появится ...э... когда-нибудь, по настроению.

Огромное спасибо Михаилу Дунавецкому за неоценимый вклад в создание этого видеоролика. :148: :up:

Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Mikhail » Пн апр 21, 2014 06:49

Валера, спасибо, очень интересно. Я примерно тем же процессом пользуюсь. Плюс на этапе перевода в DejaVu использую ряд приемов, чтобы изначально мусор в базу не попадал. Там есть такая волшебная кнопка Do Not Send.
...один из них мне сказал: «с такими позорными взглядами ты вечно будешь одиноким и несчастным».
Аватара пользователя
Mikhail

 
Сообщения: 1352
Зарегистрирован: Пн ноя 04, 2002 23:27
Откуда: Samara/Sakhalin
Язык(-и): en-ru

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Пн апр 21, 2014 11:55

Я только что обнаружил грубейшую ошибку в ролике, поэтому удалю и переделаю.

&lt; и &gt; на < и > заменять не нужно!

Регулярное выражение для очистки от обрывков кодов должно выглядеть как &lt;.*?&gt; !!!

Извиняюсь за эту ошибку. Ролик будет перезаписан.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение mikhailo » Пн апр 21, 2014 14:52

Регулярное выражение для очистки от обрывков кодов должно выглядеть как &lt;.*?&gt; !!!


Валера - это рукоблудие. Такие вещи заменяются просто без регвыров - сначала одно, потом другое.

Поищите вашим регвыром по строке &lt;фваврв &lt;.*?&gt;&gt;
Сильно удивитесь.

Если уж до конца правильно сначала до упора
&lt;([^&]+)&gt;
а потом ваш регвыр.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Пн апр 21, 2014 15:13

mikhailo писал(а):Такие вещи заменяются просто без регвыров - сначала одно, потом другое.
Поищите вашим регвыром по строке &lt;фваврв &lt;.*?&gt;&gt;
Сильно удивитесь.
Если уж до конца правильно сначала до упора
&lt;([^&]+)&gt;
а потом ваш регвыр.


А зачем? Чем плохо предложенное мной выражение? Я проверил на нескольких tmx, все нормально работает. Или я что-то упустил? Не могу по описанию въехать. Нельзя ли записать ролик каким-нибудь бандикамом или еще чем-то и показать как это делается в Олифанте?

Другой момент: стоит ли прогрызать мозг коллегам слишком уж сильно? Далеко не всем регвыры вообще нужны. Нам бы базу почистить от мусора...

Строго говоря, данная операция для очистки tmx в моем понимании не критична. Я считаю, что одним лишь Олифантом полностью привести файл tmx в надлежащий порядок не получится и файл все равно нужно до-очищать в Экселе (или в УльтраЭдите, по вкусу). А в текстовом редакторе все делается гораздо проще. Но это так, заметки на полях. Доберусь до Экселя, покажу.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение mikhailo » Пн апр 21, 2014 16:15

А зачем? Чем плохо предложенное мной выражение?


Тем, что вложенность кривых тэгов не проверяет. Такие моменты хоть редко, но бывают.
В Олифанте достаточно просто удалить тэги встроенной удалялкой. Остальное - драйверами голова и руки.

Нельзя ли записать ролик каким-нибудь бандикамом или еще чем-то и показать как это делается в Олифанте?

Зачем? Чтобы атрофию мозга стимулировать. Тому кто ищет, достаточно подсказки, а кому надо разжёвывать, тот вряд-ли будет грызть твёрдую пищу.

Эксель - дело хорошее. Кто-бы конвертер TMX(XLIFF)-EXCEL и обратно написал. Хотя в принципе EXCEL-TMX есть LF Aligner. Можно оттуда просто выдрать.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Пн апр 21, 2014 16:29

mikhailo писал(а):вложенность кривых тэгов не проверяет. Такие моменты хоть редко, но бывают.


Теоретически, да. На практике же, я специально изучал дефекты tmx и поведение очищенной ТМ в CAT-программе. Да, потери есть. Два-три процента от общего объема и ничего по-настоящему критичного. Мы ведь всем этим не ради чистого искусства занимаемся, а чтобы потом переводить полегче было. Я считаю, что если сегмент потерян, то и фиг с ним. Если он тормозил всю ТМ. И вся моя практика последних лет этот концептуальный подход подтверждает.

Мы ведь работаем с гигантскими массивами: миллион сегментов, полтора миллиона...

mikhailo писал(а):
Нельзя ли записать ролик каким-нибудь бандикамом или еще чем-то и показать как это делается в Олифанте?

Зачем? Чтобы атрофию мозга стимулировать. Тому кто ищет, достаточно подсказки, а кому надо разжёвывать, тот вряд-ли будет грызть твёрдую пищу.


Понял. Тоже позиция. А я вот решил позаниматься разжевыванием. Корыстный интерес при этом тоже присутствует, если честно. Но это уже другая тема.

mikhailo писал(а):Эксель - дело хорошее. Кто-бы конвертер TMX(XLIFF)-EXCEL и обратно написал. Хотя в принципе EXCEL-TMX есть LF Aligner. Можно оттуда просто выдрать.


Heartsome делает tmx из Экселя просто изумительно. И обратно тоже. Но до этого мы еще доберемся. Дежа вроде тоже воспринимает Эксель, но по старой памяти помню, что загрузить в нее экселевскую книгу на миллион юнитов - убить компьютер.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение mikhailo » Пн апр 21, 2014 17:37

Теоретически, да. На практике же, я специально изучал дефекты tmx и поведение очищенной ТМ в CAT-программе. Да, потери есть. Два-три процента от общего объема и ничего по-настоящему критичного. Мы ведь всем этим не ради чистого искусства занимаемся, а чтобы потом переводить полегче было. Я считаю, что если сегмент потерян, то и фиг с ним. Если он тормозил всю ТМ. И вся моя практика последних лет этот концептуальный подход подтверждает.

Мы ведь работаем с гигантскими массивами: миллион сегментов, полтора миллиона...


Подход правильный, но принцип ложный. Учить надо сразу правильно, без писанныхх по воде допущений, чтобы потом не было вопросов.

Я тоже подумываю в каком-нибудь местном ВУЗЕ попытаться донести до молодёжи собственные навыки, но пока как-то руки не доходят.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Валерий Афанасьев » Пн апр 21, 2014 20:02

ОК. Буду перезаписывать, обязательно сделаю дисклеймер со ссылкой на эту ветку.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: Вебинар по чистке и оптимизации ТМ/ТМХ

Сообщение Константин Лакшин » Пн апр 21, 2014 20:16

Валерий, и еще критиканский вопрос: а вы про допустимые/недопустимые для ТМХ сочетания символов принципиально ничего не объяснять не собираетесь? И вообще про устройство ТМХ?
Переводчик в свободное время, 24/7/365.
Константин Лакшин

 
Сообщения: 2429
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)

Пред.След.


Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Площадь событий

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 10