Страница 1 из 1

Вытащить из глоссария термины, найденные в тексте

СообщениеДобавлено: Пт дек 01, 2017 15:27
Bookworm
Уважаемые коллеги,

что-то я завис вот с какой задачей. Заказчик хочет получать "глоссарий на документ", т.е. список найденных в этом документе терминов с их переводам. У меня есть огроменный глоссарий по этому заказчику, и из него надо сделать выжимку "только термины, найденные вот в этих 10 документах". Что-то даже не могу себе представить, как это сделать автоматически. Посоветуйте please.

Re: Вытащить из глоссария термины, найденные в тексте

СообщениеДобавлено: Пт дек 01, 2017 15:36
mikhailo
1. Составляем список слов/глоссарий - документа, а глоссарий по заказчику конвертируем в табулированный файл
2. В загоняем в Эксель
3. Выделяем дубликаты функциями экселя, потом фильтруем и профит.

Re: Вытащить из глоссария термины, найденные в тексте

СообщениеДобавлено: Пт дек 01, 2017 15:48
Bookworm
Да, это первое, что пришло в голову, но это не работает. Инструменты вытаскивания терминов выдают совершенно невероятные списки, имеющие очень мало общего с реальным глоссарием.
Видно, все же придется писать прогу для поиска в xml. Цикл по глоссарию, ищем термин в указанных sdxliff, если найден - добавляем в таблицу.

Re: Вытащить из глоссария термины, найденные в тексте

СообщениеДобавлено: Пт дек 01, 2017 16:24
Viktor N.
В Дежа Вю есть функция создания "Лексикона" по конкретному проекту.
Вот цитата из руководства к этой программе:
"Еще одной базой данных, используемой в проекте, является Lexicon (Лексикон) - специальная терминологическая база, предназначенная только для данного проекта и учитывающая особенности его терминологии, в частности, конкретную терминологию заказчика".

Может быть, кто-нибудь из более опытных пользователей Дежи, например Vic, подскажет, будет ли пригодна эта функция для выполнения вашей задачи.

Re: Вытащить из глоссария термины, найденные в тексте

СообщениеДобавлено: Пт дек 01, 2017 16:53
Vic
В принципе, Лексикон подходит. Единственный момент - полная автоматизация естественно не получится. Принцип пример такой: Лексикон выбирает и создает таблицу все возможных входов документов проекта с частотой появления. Длина входа задает пользователем. На этом автоматизация завершается.
Дальше уже ручная работа: выбираем все необходимые (а лучше удаляем все ненужные варианты).

Re: Вытащить из глоссария термины, найденные в тексте

СообщениеДобавлено: Пт дек 01, 2017 17:00
mikhailo
Да, это первое, что пришло в голову, но это не работает. Инструменты вытаскивания терминов выдают совершенно невероятные списки, имеющие очень мало общего с реальным глоссарием.
Видно, все же придется писать прогу для поиска в xml. Цикл по глоссарию, ищем термин в указанных sdxliff, если найден - добавляем в таблицу.


А кто мешает перевернуть тогда эту функцию - брать глоссарий, брать текст и функциями искать количество вхождений глоссария в текст, а потом отфильтровать ненулевые.

Автоматические создатели глоссариев и лексиконов часто дают неудовлетворительный результат к сожалению.

Re: Вытащить из глоссария термины, найденные в тексте

СообщениеДобавлено: Сб дек 02, 2017 21:27
John Gower
Если это ТОТ САМЫЙ то можно так, если есть (TermExtract): извлекаем только те термины из указанных файлов, которые уже есть в базе которую мы подключили.
Должно получится.
Оффтопик
Я типа чуть-чуть на борту )))