Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Вытащить из глоссария термины, найденные в тексте

Вытащить из глоссария термины, найденные в тексте

Сообщение Bookworm » Пт дек 01, 2017 15:27

Уважаемые коллеги,

что-то я завис вот с какой задачей. Заказчик хочет получать "глоссарий на документ", т.е. список найденных в этом документе терминов с их переводам. У меня есть огроменный глоссарий по этому заказчику, и из него надо сделать выжимку "только термины, найденные вот в этих 10 документах". Что-то даже не могу себе представить, как это сделать автоматически. Посоветуйте please.
Я никогда не верил в сказки про равенство людей: физик-ядерщик легко может разобраться в законодательстве или выучить несколько иностранных языков, но ни один гуманитарий не сможет запустить ядерный реактор.
Аватара пользователя
Bookworm

 
Сообщения: 1294
Зарегистрирован: Вс июн 14, 2009 11:28
Откуда: Тула
Язык(-и): русский-английский





Re: Вытащить из глоссария термины, найденные в тексте

Сообщение mikhailo » Пт дек 01, 2017 15:36

1. Составляем список слов/глоссарий - документа, а глоссарий по заказчику конвертируем в табулированный файл
2. В загоняем в Эксель
3. Выделяем дубликаты функциями экселя, потом фильтруем и профит.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3507
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Вытащить из глоссария термины, найденные в тексте

Сообщение Bookworm » Пт дек 01, 2017 15:48

Да, это первое, что пришло в голову, но это не работает. Инструменты вытаскивания терминов выдают совершенно невероятные списки, имеющие очень мало общего с реальным глоссарием.
Видно, все же придется писать прогу для поиска в xml. Цикл по глоссарию, ищем термин в указанных sdxliff, если найден - добавляем в таблицу.
Я никогда не верил в сказки про равенство людей: физик-ядерщик легко может разобраться в законодательстве или выучить несколько иностранных языков, но ни один гуманитарий не сможет запустить ядерный реактор.
Аватара пользователя
Bookworm

 
Сообщения: 1294
Зарегистрирован: Вс июн 14, 2009 11:28
Откуда: Тула
Язык(-и): русский-английский

Re: Вытащить из глоссария термины, найденные в тексте

Сообщение Viktor N. » Пт дек 01, 2017 16:24

В Дежа Вю есть функция создания "Лексикона" по конкретному проекту.
Вот цитата из руководства к этой программе:
"Еще одной базой данных, используемой в проекте, является Lexicon (Лексикон) - специальная терминологическая база, предназначенная только для данного проекта и учитывающая особенности его терминологии, в частности, конкретную терминологию заказчика".

Может быть, кто-нибудь из более опытных пользователей Дежи, например Vic, подскажет, будет ли пригодна эта функция для выполнения вашей задачи.
Viktor N.

 
Сообщения: 1449
Зарегистрирован: Ср дек 24, 2003 14:15
Откуда: Бельгия
Язык(-и): Fr/En/De-->Ru

Re: Вытащить из глоссария термины, найденные в тексте

Сообщение Vic » Пт дек 01, 2017 16:53

В принципе, Лексикон подходит. Единственный момент - полная автоматизация естественно не получится. Принцип пример такой: Лексикон выбирает и создает таблицу все возможных входов документов проекта с частотой появления. Длина входа задает пользователем. На этом автоматизация завершается.
Дальше уже ручная работа: выбираем все необходимые (а лучше удаляем все ненужные варианты).
Vic

 
Сообщения: 1876
Зарегистрирован: Вт дек 16, 2003 13:40
Откуда: Москва

Re: Вытащить из глоссария термины, найденные в тексте

Сообщение mikhailo » Пт дек 01, 2017 17:00

Да, это первое, что пришло в голову, но это не работает. Инструменты вытаскивания терминов выдают совершенно невероятные списки, имеющие очень мало общего с реальным глоссарием.
Видно, все же придется писать прогу для поиска в xml. Цикл по глоссарию, ищем термин в указанных sdxliff, если найден - добавляем в таблицу.


А кто мешает перевернуть тогда эту функцию - брать глоссарий, брать текст и функциями искать количество вхождений глоссария в текст, а потом отфильтровать ненулевые.

Автоматические создатели глоссариев и лексиконов часто дают неудовлетворительный результат к сожалению.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill
mikhailo

 
Сообщения: 3507
Зарегистрирован: Пн июл 12, 2004 07:22
Язык(-и): EN,DE,IT>RU; СУРДОПЕРЕВОД

Re: Вытащить из глоссария термины, найденные в тексте

Сообщение John Gower » Сб дек 02, 2017 21:27

Если это ТОТ САМЫЙ то можно так, если есть (TermExtract): извлекаем только те термины из указанных файлов, которые уже есть в базе которую мы подключили.
Должно получится.
Оффтопик
Я типа чуть-чуть на борту )))
Last grace of style
Аватара пользователя
John Gower

 
Сообщения: 1332
Зарегистрирован: Ср июл 21, 2010 14:09
Блог: Просмотр блога (6)
Язык(-и): en-ru, ru-en, de-ru, de-en



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Trados

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 2