Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Посоветуйте,где можно скачать бесплатные TMX-словари(память)

Посоветуйте,где можно скачать бесплатные TMX-словари(память)

Сообщение SourceLocalizer » Чт июн 16, 2016 18:57

В интернете можно найти множество GPL-словарей в формате PO, которые используются при переводе/локализации.

При этом словарей/памяти, которые были бы GPL и/или бесплатными в формате TMX не нашел.

Возможно, есть открытые проекты, организации и пр., которые выкладывают словари на своих сайтах?

Меня интересуют словари/память для тестирования своей программы и апробации используемых в ней решений, разработанных в рамках моей научной деятельности, поэтому желательны словари со сложным и разнообразным оформлением, сжатием и пр.

Спасибо.
SourceLocalizer

 
Сообщения: 8
Зарегистрирован: Чт июн 16, 2016 14:44





Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение Galcionka » Пт июн 17, 2016 03:45

Таки словари или память? Словарь подразумевает структуру "один термин - всевозможные варианты перевода", память - "исходный сегмент - целевой сегмент".

В любом случае, можете посмотреть тут: http://iate.europa.eu/tbxPageDownload.do
Там выложены словари и глоссарии по европейским языкам в формате TBX (TermBase eXchange), а вот тут рассказывается, как преобразовать TBX в TMX.
Аватара пользователя
Galcionka

 
Сообщения: 84
Зарегистрирован: Пт авг 10, 2012 21:27
Язык(-и): ITA-RUS

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение SourceLocalizer » Сб июн 18, 2016 00:58

Большое спасибо.
Не правильно сформулированный вопрос позволил узнать о TBX, причем с примерами терминологии связанной по нескольким (3,5,..) языкам, а не только языковым парам.
Обязательно изучу файл TBX по указанной ссылке.

Вопрос именно по памяти переводов.
Интересуют пары языков - оригинал и его перевод (TMX).
Желательны пары языков En-Ru/Ru-En.

Интересуют большие базы памяти по которым можно выяснить актуальность проверки корректности перевода переменных (%s, %i,..), оформления (кавычки, тире,..),
соответствия знаков, начал предложений и пр.

Частые ошибки при локализации (po-file):
"Значение:" = "Value" - Ошибка в забытом двоеточии.
"Значение:" = "value :" - Ошибка в пробеле перед двоеточием и первой строчной букве в переводе.
"Значение: " = "Value:" - Ошибка в забытом пробеле, который при сочетании с последующими переменными может привести к проблемам оформления
или к различному оформлению схожих фрагментов ("Значение1: 100" = "Value1: 100", "Значение2: 100" = "Value2:100").
Различие использования/игнорирования в переводе "Ё" и т.п.
Интересует наличие подобных проблем и актуальность их решения в крупных проектах использующих память переводов (TMX).

В найденных примерах TMX встречалось сжатие текстов алгоритмом lzw, которое не нашел в спецификации TMX.
Возможно это специализированные TMX-файлы, которые применяются для редкого ПО и в популярных программах они не используются.
Интересует сложное оформление TMX-файлов.

Спасибо.
SourceLocalizer

 
Сообщения: 8
Зарегистрирован: Чт июн 16, 2016 14:44

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение Bookworm » Сб июн 18, 2016 01:24

Так ведь все указанные проблемы прекрасно решаются как встроенными в САТ-системы средствами контроля качества (нажмите F8 в Традосе), так и внешними программами контроля качества: Verifka, xBench. Они отлавливают огромную массу подобных ошибок. Поэтому по-хорошему в TM (и в TMX) ничего подобного попадать вообще не должно.
Я никогда не верил в сказки про равенство людей: физик-ядерщик легко может разобраться в законодательстве или выучить несколько иностранных языков, но ни один гуманитарий не сможет запустить ядерный реактор.
Аватара пользователя
Bookworm

 
Сообщения: 1907
Зарегистрирован: Вс июн 14, 2009 11:28
Откуда: Тула
Язык(-и): русский-английский

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение SourceLocalizer » Сб июн 18, 2016 01:37

Контроль качества присутствует в перечисленных Вами программах. При этом на сайтах переводческих организаций встречаю простые ошибки оформления.
Ошибки встречаются в журналах и других серьезных изданиях, которые должны использовать подобные системы.
Интересует какие ошибки попадают в ТМ. Возможно их и нет у крупных организаций, просто их сайты для них второстепенное занятие :)
Это только часть вопроса по TMX.

Вторая часть - какие бывают особенности оформления (lzw), использования пар языков и пр.

Большие базы позволят выяснить статистику ошибок (или их отсутствия), характер ошибок и пр.
Разнообразные примеры позволят выявить отступления от спецификации или особенности использования TMX.
SourceLocalizer

 
Сообщения: 8
Зарегистрирован: Чт июн 16, 2016 14:44

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение Bookworm » Сб июн 18, 2016 01:47

Не совсем понятна привязка к формату tmx. Это формат обмена памятью (его поддерживают практически все САТ-системы), соответственно в реальной переводческой практике он нужен весьма редко. Вот сидит у меня международный отдел, все в Традосе, единая база в формате sdltm, про tmx они даже и не слышали. Я к тому, что в tmx попадает крайне незначительная часть переводов, а основной слой хранится в native форматах САТ-систем. Строить серьезное исследование на tmx я бы не стал, это нерепрезентативная выборка.
Я никогда не верил в сказки про равенство людей: физик-ядерщик легко может разобраться в законодательстве или выучить несколько иностранных языков, но ни один гуманитарий не сможет запустить ядерный реактор.
Аватара пользователя
Bookworm

 
Сообщения: 1907
Зарегистрирован: Вс июн 14, 2009 11:28
Откуда: Тула
Язык(-и): русский-английский

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение SourceLocalizer » Сб июн 18, 2016 02:05

TMX, предполагаю, наиболее универсальный формат обмена переводами, поэтому решил задать вопрос именно по нему.
Внутренняя структура его схожа с форматом po, с которым я постоянно работаю.
Предположил, что переводы, по которым можно провести исследование, также проще найти именно в это формате.
Кроме того, сам формат тоже заинтересовал, особенно его специфика со сжатием информации в тегах.

Рабочие базы данных для исследования и в дальнейшем публикации по ним материалов вряд ли удастся получить у крупных организаций, особенно если в них будут найдены ошибки :)
Если брать переводы встречающиеся на малоизвестных сайтах с неизвестным качеством перевода, то пользы от их исследования мало.

Если есть опубликованные переводы/память крупных организаций/издательств/пр., пусть и в других форматах, напишите, пожалуйста, где можно их скачать. Желательны языковые пары En-Ru/Ru-En.

Спасибо.
SourceLocalizer

 
Сообщения: 8
Зарегистрирован: Чт июн 16, 2016 14:44

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение esperantisto » Сб июн 18, 2016 05:57

«И вообще погаными тряпками гнать этих переводчиков. Ишь чего удумали — переводить. Да ещё, чтоб удобно им было, хотят.» (на форуме разработчиков ПО)
esperantisto

 
Сообщения: 7035
Зарегистрирован: Ср фев 25, 2004 12:14
Откуда: Менск
Язык(-и): En→Ru/Be, De→Ru/Be

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение SourceLocalizer » Сб июн 18, 2016 11:27

Большое спасибо.
Великолепный документ на 6 языках.
Немного смущает отсутствие ссылок с un.org на этот сайт, которые подтвердили бы его "официальность".
Предварительно - это результат исследования нескольких человек. Это вполне можно будет обойти через поиск найденных ошибочных/странных/пр. фрагментов в переводах на официальном сайте.
В статье с этого сайта приведена статистика, которая указывает на значительно большие объемы исходных данных в исследовании.

Нашел (спасибо Google :) ) официальные файлы документов прямо с сайта un.org:
http://conferences.unite.un.org/UNCorpus
Файлы, к сожалению, имеют формат plaintext, а не TMX.
Для анализа языков, по отдельности, вполне подходят.
В качестве пар языков, для сравнения корректности перевода, они не подходят.

Возможно есть еще ресурсы в виде TMX/языковых_пар, на подобии http://www.uncorpora.org/? Только с официальных сайтов, таких как http://conferences.unite.un.org/UNCorpus?

Если есть примеры корпоративных переводов, например, Microsoft, с официальных ресурсов (на некоторых форумах есть ссылки на память переводов, но непонятен ее статус), будет совсем замечательно.

Еще раз Большое Спасибо.
SourceLocalizer

 
Сообщения: 8
Зарегистрирован: Чт июн 16, 2016 14:44

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение SourceLocalizer » Сб июн 18, 2016 17:39

В статье к документам (http://conferences.unite.un.org/UNCorpus) указано, что можно часть из них собрать как языковые пары через ключевой файл или построчно из нескольких файлов.
В дальнейшем попробую их перестроить в языковые пары.

Проверил статистику по первым 100000 строкам из документов http://conferences.unite.un.org/UNCorpus
Выявил множество ошибок оформления, различные стили оформления и т.п.
Есть даже орфографические ошибки.
Возможно в начале идут старые документы, которые были до использования современных программ проверки качества перевода.

Очень интересные документы для построения статистики и апробации алгоритмов выявления ошибок.
SourceLocalizer

 
Сообщения: 8
Зарегистрирован: Чт июн 16, 2016 14:44

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение Бычара » Вс июн 19, 2016 08:18

@@TMX, предполагаю, наиболее универсальный формат обмена переводами, поэтому решил задать вопрос именно по нему.@@
Это не предполагать надо, а отмечать как факт.
Не слушайте тех, кто говорит то, что есть какой-то отдел и какой-то там накопитель в каком-то ином формате.
"Память" уже говорит о степени осведомленности отвечающего.
И смайлики, конечно же, - три, как и положено по нормативам )))
Аватара пользователя
Бычара
Бык Маллиган
 
Сообщения: 2915
Зарегистрирован: Сб июл 16, 2011 14:23

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение SourceLocalizer » Вс июн 19, 2016 14:01

Бычара писал(а):Это не предполагать надо, а отмечать как факт.


Вольное изложение одной из популярных ошибок в школьных сочинениях и, порой, не только в школьных:
Фрагмент — Пушкин, на мой взгляд, был великим русским писателем.
Замечание — Он был великим русским писателем не на ваш взгляд — это просто факт.

Я не занимаюсь профессиональными переводами в множестве программ, как активные пользователи форума (лично не знаком, но предполагаю, что некоторые очень хорошо разбираются в интересующих меня вопросах :) ).
Поэтому я стараюсь задавать вопросы по интересующей меня теме и не делать ультимативных выводов, основываясь на теории, которые на практике могут быть ошибочными.
В вопросе популярности TMX (это все же не Пушкин :) ) меня смущает наличие форматов XLIFF и др., которые тоже поддерживаются множеством программ, и словари/память/языковыепары вполне могут быть использованы, на практике, для передачи и хранения в виде файлов памяти переводов.
Меня интересует практический взгляд на эту тему.

И, конечно, меня интересует сама тема — с каких официальных сайтов можно скачать память_переводов/языковые_пары.
SourceLocalizer

 
Сообщения: 8
Зарегистрирован: Чт июн 16, 2016 14:44

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение Бычара » Пн июн 20, 2016 13:52

Мультиязыковые накопители найти гораздо труднее, чем моноязыковые. Типа накопителей существует, например, Перл, даза банных на разных языках http://www.wipo.int/wipopearl/search/li ... earch.html
@@В вопросе популярности TMX (это все же не Пушкин :) ) меня смущает наличие форматов XLIFF и др., которые тоже поддерживаются множеством программ, и словари/память/языковыепары вполне могут быть использованы, на практике, для передачи и хранения в виде файлов памяти переводов.@@
Меня это не смущает, т.к. я с 2004 года работаю с *.tmx. Ни разу не видел того, чтобы отсутствовала совместимость с каким-либо ПО. Вы не повторяйте чужих ошибок "память". Это не память, а накопитель, ну, даза банных в крайнем случае.
И смайлики, конечно же, - три, как и положено по нормативам )))
Аватара пользователя
Бычара
Бык Маллиган
 
Сообщения: 2915
Зарегистрирован: Сб июл 16, 2011 14:23

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение SourceLocalizer » Пн июн 20, 2016 19:42

Спасибо за ссылку. Очень интересная информация.
Осталось разобраться как скачать патенты целиком, а не фразами, при этом на двух языках.

Частичный оффтоп по терминологии в этой теме:

"Память" — вполне нормальный термин, только сокращенный от полного "память переводов". Постараюсь его в дальнейшем не сокращать в этом посте :)
TMX — это именно формат для обмена памятью переводов (см. ссылки).
Этот формат не может являться "накопителем" или, тем более, базой данных. Он именно формат в который можно "выгрузить" данные из "накопителей" или базы данных.

"This topic describes how to export data from a translation memory to a *.tmx (Translation Memory Exchange) file" http://producthelp.sdl.com/sdl%20trados ... y_Data.htm
В wikipedia тоже самое - https://ru.wikipedia.org/wiki/Translati ... y_eXchange


Формат TMX, на данный момент, желателен но не принципиален. Желательны большие объемы официальных переводов — документы ООН прекрасно подходят. Если бы найти публичные коммерческие переводы, было бы вообще замечательно.

Еще раз спасибо за интересную ссылку.
SourceLocalizer

 
Сообщения: 8
Зарегистрирован: Чт июн 16, 2016 14:44

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение Бычара » Вт июн 21, 2016 11:18

Вот честно, про парсинг ничего не скажу, как - собственно - @@как скачать патенты целиком, а не фразами, при этом на двух языках.@@
Было дело, когда доморощенные кулхакеры (середина нулевых) граббили целые ресурсы с выкачиванием нужной информации - парами, тройками, четверками языков.
""Память" — вполне нормальный термин, только сокращенный от полного "память переводов". Постараюсь его в дальнейшем не сокращать в этом посте :)
TMX — это именно формат для обмена памятью переводов (см. ссылки). """
Для тех, кто не в теме, возможно, это и нормальный термин.
Есть бинарники, есть чисто текстовые накопители, но все они сводятся в формат обмена накопителями (tmx). Я думаю, что спеки на ти-эм-экс не просто так писались, чтобы Ваня с Таней не имели батхертов при пользовании.
""Желательны большие объемы официальных переводов — документы ООН прекрасно подходят. Если бы найти публичные коммерческие переводы, было бы вообще замечательно.""
Есть определенные ресурсы, например, относительно толковый http://www.linguee.ru/ где можно конкордансы получить.
И смайлики, конечно же, - три, как и положено по нормативам )))
Аватара пользователя
Бычара
Бык Маллиган
 
Сообщения: 2915
Зарегистрирован: Сб июл 16, 2011 14:23

Re: Посоветуйте,где можно скачать бесплатные TMX-словари(пам

Сообщение Art o'Vladik » Пн янв 09, 2017 09:28

Здесь: http://opus.lingfil.uu.se/
Огрехи наличествуют. Однако надо понимать, что получить идеально выровненную бесплатную TM практически невозможно... А это лучшее из того что мне когда-либо попадалось.
Art o'Vladik

 
Сообщения: 73
Зарегистрирован: Вс фев 17, 2008 05:22
Откуда: Vladivostok



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Полезное программное обеспечение. Аллея Бродяги

Кто сейчас на конференции

Сейчас этот форум просматривают: Bing [Bot] и гости: 9