Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

MT2007 => Catnip

Сообщение Olik » Чт апр 10, 2008 13:31

Andrew Manson писал(а):Для украинского, думаю, можно использовать русский стеммер, но не уверен. Стеммер - модуль откидывающий окончания слов, оставляет только неизменную от падежа форму слова...

Загляните сюда:
http://lcorp.ulif.org.ua/dictua/
словарь "Словозміна"
Это один из ведущих на сегодняшний день ресурсов по украинскому языку.
Andrew Manson писал(а):А вы просто так интересуетесь или уже пробовали программу?

Пока только интересуюсь. Когда дойдут руки, опробую.
Olik

 
Сообщения: 2489
Зарегистрирован: Пн сен 20, 2004 19:02
Откуда: Крым, Сакский р-н





Сообщение Andrew » Ср апр 16, 2008 21:11

Andrew Manson писал(а):Прошу дать комментарии по программе TextAlign. Ее скачало с десяток человек. Мне нужно ваше мнение, какой функционал туда еще добавить. И вообще, оказалась ли она полезна в текущей работе тем, кто потестил ее?


Программка внезапно оказалась не просто полезной, а очень полезной. У меня она сгрызла файл RTF на 50к+ слов, на котором исправно ложились до нее Winalign и DV. Потом в меру сносно его сегментировала (не без ошибок, но поправимо) и даже экспортировала.
Чего не хватает:
1) Возможности управлять операциями с клавиатуры. Хотя бы удалять строки нажатием на Del просто необходимо, мышью кликать пару тысяч раз подряд можно, конечно, но тяжко. А ведь бывает и больше.
2) Очень не хватает возможности сохранять промежуточное состояние проекта. На больших файлах за рабочий день просто невозможно успеть совместить и проверить все пары оригинал-перевод. Я уж не говорю о возможных сбоях и потере результатов в процессе работы.
3) Нужна возможность удалять сразу несколько разнесенных строк/диапазонов в оригинале/переводе. Сейчас их можно выделять с Ctrl, но при нажатии на кнопку удаления стираются и промежуточные строки.
4) В перспективе очень пригодилась бы возможность настраивать параметры сегментации, привязывать деление на фразы к форматам и стилям документа.
Andrew
Хранитель огня
 
Сообщения: 9926
Зарегистрирован: Пн янв 14, 2002 12:28
Откуда: Rostov-on-Don
Блог: Просмотр блога (23)
Язык(-и): EN<->RU

Сообщение Andrew Manson » Чт апр 17, 2008 21:42

Andrew писал(а):Программка внезапно оказалась не просто полезной, а очень полезной. У меня она сгрызла файл RTF на 50к+ слов, на котором исправно ложились до нее Winalign и DV. Потом в меру сносно его сегментировала (не без ошибок, но поправимо) и даже экспортировала.
Чего не хватает:


Понял. Постараюсь реализовать нечто подобное.
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew » Пт апр 18, 2008 23:03

Кстати, функционал TextAlign, пожалуй, был бы совсем не лишним в составе MT2007. Тогда можно было бы составлять базы ТМ прямо в единой рабочей среде, как это делается в DV, например.
Andrew
Хранитель огня
 
Сообщения: 9926
Зарегистрирован: Пн янв 14, 2002 12:28
Откуда: Rostov-on-Don
Блог: Просмотр блога (23)
Язык(-и): EN<->RU

Сообщение Andrew Manson » Пт апр 18, 2008 23:07

Andrew писал(а):Кстати, функционал TextAlign, пожалуй, был бы совсем не лишним в составе MT2007. Тогда можно было бы составлять базы ТМ прямо в единой рабочей среде, как это делается в DV, например.


Я в принципе о подобном думал, но пока оставлю как есть. Там есть еще над чем подумать при такой стыковке.

Сейчас буду делать давно запланированные корректировки в программе в уже существующем функционале (надеюсь вырву время для этого на выходных) и надо поправить некоторые найденные косячки. Заодно и TextAlign попробую нарастить предложенными вами дополнениями.
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew Manson » Сб май 24, 2008 15:02

Новая версия TextAlign (1.0.0.1)

добавленные фичи:
1) Можно сохранять промежуточное состояние текущей работы (и загружать);
2) Удалять выделенные ячейки можно с клавиатуры по DEL;
3) Склеивать выделенные ячейки можно с клавиатуры по INS;
4) Можно создавать свои правила разбивки текста на предложения, правила создаются с использованием регулярных выражений. Правила сохраняются в простой текстовый файл Rules.txt, который можно редактировать отдельно.

Скачать можно отсюда:
http://cosmos2.ru/downloads/MT2007/Text ... _0_0_1.rar
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение esperantisto » Сб май 24, 2008 16:36

Довольно забавно видеть на стартовом экране виндового приложения эмблему фряхи :-) Намёк на будущий порт?
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7037
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Сообщение Andrew Manson » Сб май 24, 2008 21:36

esperantisto писал(а):Довольно забавно видеть на стартовом экране виндового приложения эмблему фряхи :-) Намёк на будущий порт?

Скорее память об одном из этапов моего развития как компьютерщика. К сожалению, давно закончившемся.
Перешел от общего понятия "компьютерщик" к "программист", где приходится зарабатывать на жизнь. Под *никсами в то время для меня это было невозможно.
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew Manson » Сб май 24, 2008 22:02

И еще момент, раз уж есть отклик, то кто попробовал, может дадите свои комменты о проге? Типа, что нравится, что нет, чего не хватает. Не обещаю, что сразу брошусь дописывать, но у меня будет повод задуматься и при возможности (по времени) может и доделаю, чего не хватает.
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение esperantisto » Вс май 25, 2008 11:49

Andrew Manson, можно отклик без пробования (сейчас просто нет подходящей задачи, да и работаю в Линуксе)? Насколько я понимаю, для промежуточного хранения результатов используется некий собственный формат. В то же время bitext2tmx в качестве промежуточного использует TMX, что позволяет в особо срочных случаях воспользоваться «недовыровненной» базой практически в любой программе на базе памяти переводов.
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7037
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Сообщение esperantisto » Вс май 25, 2008 11:52

Ну а не хватает кросс-платформенности (увы, даже через CrossOver Linux программа в Линуксе не запускается).
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7037
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Сообщение Andrew Manson » Вс май 25, 2008 12:46

esperantisto писал(а):Andrew Manson, можно отклик без пробования (сейчас просто нет подходящей задачи, да и работаю в Линуксе)? Насколько я понимаю, для промежуточного хранения результатов используется некий собственный формат.

Просто микрософтовский механизм сериализации данных в xml формат.
В то же время bitext2tmx в качестве промежуточного использует TMX, что позволяет в особо срочных случаях воспользоваться «недовыровненной» базой практически в любой программе на базе памяти переводов.

Может быть. Только, если вы заметили, у меня при экспорте в ТМХ можно указывать версию формата и кодировку. Насколько я сталкивался с разными ТМХ, сформированными из разных программ, эти параметры варьируются. Соответственно надо точно указать, что вы хотите, чтобы любимая ваша программа поняла этот ТМХ. А по умолчанию выставлять эти параметры не хочется (потом ругаться будете, типа сохранил, а там не открывается или кодировка кривая). К тому открыть сохраненное и выгрузить в ТМХ дело пары минут.[/quote]
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew Manson » Вс май 25, 2008 12:48

esperantisto писал(а):Ну а не хватает кросс-платформенности (увы, даже через CrossOver Linux программа в Линуксе не запускается).

Увы мне. Даже не рассматривал такую возможность. Однако, если хотите, могу посмотреть, можно ли портировать под Моно, которое для линуха уже широко распространено.
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение esperantisto » Вс май 25, 2008 13:28

Andrew Manson, если возможно, посмотрите :-)
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7037
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Сообщение Andrew Manson » Вс май 25, 2008 17:26

esperantisto писал(а):Andrew Manson, если возможно, посмотрите :-)

Посмотрел. Малой кровью не обойтись 8-(
Переписать надо будет как минимум половину кода. Интерфейс - полностью.
Сами понимаете, особого желания нет...
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew Manson » Вс июн 15, 2008 21:36

Выпустил новую версию MT2007 (1.0.3.1)

Изменения:

1) Исправлена ошибка, возникавшая при экспорте в репозиторий проекта, созданного из TMX файла.
2) Реализован экспорт пользовательских сегментов в текстовый файл с возможностью последующего их возврата в проект. Необходимо, если вы хотите проверить внешним средством проверки орфографии сегменты. 
3) Реализован импорт в проект текстов, ранее выгруженных в текстовый файл (возможно для проверки орфографии внешними средствами или для других целей). Импорт поддерживается в тех же режимах, что и экспорт - только перевод, оригинал и перевод в одном файле, оригинал и перевод в разных файлах.
4) Встроена система EBMT - Example Based Machine Translation.

Немножко о EBMT:

EBMT (Example Based Machine Translation) - система машинного перевода, обучаемая на примерах.
Модуль обучения начинает работать, когда переведено хотя бы два предложения. При переходе на новое предложение в модуль передается оригинал с только что сделанным переводом а так же наиболее похожее предложение с переводом, найденное в текущем переводе и в подключенных базах (оно обычно показывается в верхней части редактора перевода.)
Если предложения действительно "похожие", то есть отличаются дополнительными словами или фразами (то же относится и к переводам), то модуль в состоянии разбить эти предложения на части и соответствующие им переводы. Эти части сохраняются в базе данных текущего проекта, и затем используются при подстановках в новые предложения.

Приведем пример:
Допустим, текст, который необходимо перевести, состоит из трех предложений:
Send me a letter.
Send me a postcard.
Send me a paper.

В дополнение к этому у нас в сегментах (терминах) забит перевод слова paper - газета.

При переводе первого предложения ничего не происходит. Мы переводим "Пошли мне письмо"
При переводе второго предложения так же ничего не происходит, но система в редакторе показывает нам "похожее" предложение "Send me a letter" с переводом "Пошли мне письмо". Мы переводим "Пошли мне открытку"
При переходе на третье предложение в систему EBMT поступает два предложения с переводами - текущее и "похожее".
Система находит соответствия:
"Send me a" - "Пошли мне"
"letter" - "письмо"
"postcard" - "открытку"
Соответственно уже в новом, третьем предложении, программа автоматически подставляет перевод всего предложения:"Пошли мне газета", так как "paper" у нас уже есть в базе. Осталось только поправить окончание.
А если в список слов исключений языка-оригинала добавить слово "a", то EBMT кроме "Send me a" как альтернативу запомнит и "Send me"

Слова-исключения - это слова, которые можно опустить в тексте оригинала (в начале и в конце найденных блоков текста) без потери смысла перевода и для улучшенной подстановки (например для английского - "a", "the")
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Re: MT2007 - CAT средство для переводчика

Сообщение esperantisto » Вт окт 28, 2008 13:40

Добрый день!

А где теперь обитают MT2007/TextAlign? Хотел посоветовать, а сайт (cosmos2.ru) уже не работает…
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7037
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Re: MT2007 - CAT средство для переводчика

Сообщение mikhailo » Вт окт 28, 2008 19:18

А где теперь обитают MT2007/TextAlign? Хотел посоветовать, а сайт (cosmos2.ru) уже не работает…


Есперантисто. Посмотрите на руборде.Там появилась такая тема со ссылкой на сайт. Программа даже успела обновится до версии xx3.3.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3880
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: MT2007 - CAT средство для переводчика

Сообщение esperantisto » Ср окт 29, 2008 09:52

Спасибо, действительно нашёлся сайт http://mt2007-cat.ru/ (вчера, собственно, я его тоже нашёл через Гугл, но он не работал).
«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7037
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Re: MT2007 - CAT средство для переводчика

Сообщение Andrew Manson » Чт окт 30, 2008 22:42

Да, действительно, хостер несколько дней "лежал". Сейчас все востановили. Кстати, как вы заметили, у программы появился свой домен второго уровня. Плюс, про программу написали в электронном журнале для переводчиков SlavFile. Журнал в ПДФ формате, вот сцылка, кому интересно: http://www.ata-divisions.org/SLD/slavfile/fall-2008.pdf
Статья называется "From Russia with CAT" 8-)
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Пред.След.


Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Catnip (МТ2007)

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1