Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

MemoQ: замена/удаление дубликатов сегментов при импорте

MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Валерий Афанасьев » Пн май 16, 2011 12:42

Вопрос к коллегам, работающим с/в MemoQ: В Деже есть функция удаления дубликатов (remove duplicates) при импорте в ТМ данных из файла TMX. Имеется ли в MemoQ такая же или аналогичная функция при импорте (м.б. в каких-то скрытых настройках?) и вообще функция автоматического поиска и удаления а) дубликатов сегментов и б) сегментов с отсутствующим переводом и/или пустым исходником (кроме просмотра ТМ глазами и удаления вручную)? Еще вопрос: часть имеющихся файлов ТМХ содержит "обратные" сегменты, т.е., в паре EN_RU могут в качестве source присутствовать сегменты на русском (вероятно, в свое время ошибочно обозначенные как EN), соответственно в target'e текст на английском. Дежа такие entries либо "переворачивает" в правильном направлении автоматически, либо игнорирует при импорте.

Все бы ничего и я мог бы и дальше (и буду и дальше) использовать TM tool Дежи для правки и чистки ТМ, но у нее свой недостаток функционала - она, в отличие от MemoQ, не группирует сегменты по алфавиту, времени ввода и т.д.

Вот и получается, что одна прога хромая, а друга слепая.

Но хуже всего то, что при работе с ТМХ размером около гигабайта (от 700 МБ, скажем) Дежа просто зависает. М.б. кто-нибудь знает как ей наподдать памяти, отняв память у нек. других одновременно исполняющихся программ? Но этот вопрос по управлению памятью компьютера я вывешу отдельно.

Спасибо.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ





Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Trados-nik » Пн май 16, 2011 14:57

Валерий Афанасьев писал(а):... В Деже есть функция удаления дубликатов (remove duplicates) при импорте в ТМ данных из файла TMX. Имеется ли в MemoQ такая же или аналогичная функция при импорте (м.б. в каких-то скрытых настройках?)...

Возможно, я не понял логику Ваших действий, но: Мемо просто перезаписывает (чтобы не было повтора) сегмент при добавлении следующего дубликата (если тот идентичен). Соответственно, если в Деже нажать "послать проект в память", то, думаю, дубликаты также перезапишутся. Какой смысл проге хранить в мемори одно и тоже?


Валерий Афанасьев писал(а):...и вообще функция автоматического поиска и удаления а) дубликатов сегментов и б) сегментов с отсутствующим переводом и/или пустым исходником (кроме просмотра ТМ глазами и удаления вручную)?...

Думаю, на полном автомате - такого не существует.


Валерий Афанасьев писал(а):...часть имеющихся файлов ТМХ содержит "обратные" сегменты, т.е., в паре EN_RU могут в качестве source присутствовать сегменты на русском (вероятно, в свое время ошибочно обозначенные как EN), соответственно в target'e текст на английском. Дежа такие entries либо "переворачивает" в правильном направлении автоматически, либо игнорирует при импорте...

Не думаю, что Дежа их "переворачивает", если память содержит такие битые сегменты. Скорее - игнорирует, поскольку битому сегменту присвоен неправильный идентификатор языка. Соответственно, машина ж не человек, не будет она искать русский там, где указан английский. Иначе присвоение языков и подъязыков - не имело бы никакого смысла.


Валерий Афанасьев писал(а):...Но хуже всего то, что при работе с ТМХ размером около гигабайта (от 700 МБ, скажем) Дежа просто зависает.

Я, конечно, не доводил базы до такого размера. Самые большие были при переводе с английского на французский. Там я подключал ООНовские памяти, но и их я порезал на 3 штуки по 600-800 тыс. сегментов. И ничё, вроде шевелилась, Дежа то :wink: Как Вы меряете "размер"? Я - по количеству сегментов.

Кстати: при чистке памяти, полученной из Традосового макроса, обнаружилась пренеприятнейшая вещь. Некоторые сегменты (ок. 20%) с русским текстом имели дефект: в словах отсутствовало по одной букве (самые разные) и плюс пробел. Я показывал нашим Ай-Тишникам. К единому мнению не пришли, но склоняемся к тому, что это последствия сегментации/индексации базы Вордовским традомакросом. Других версий пока нет.
Trados-nik

 
Сообщения: 634
Зарегистрирован: Ср апр 30, 2008 13:58
Откуда: ЦАО - Москва. Метро Таганская, доля... переводческая

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Валерий Афанасьев » Пн май 16, 2011 16:06

Trados-nik писал(а):Мемо просто перезаписывает (чтобы не было повтора) сегмент при добавлении следующего дубликата (если тот идентичен). Соответственно, если в Деже нажать "послать проект в память", то, думаю, дубликаты также перезапишутся. Какой смысл проге хранить в мемори одно и тоже?


Я не про запись сегмента из проекта. Я про импорт из стороннего ТМХ. Однако, хорошо, если не дублируется, а просто перезаписывается. Нужно проверить, я как-то не задумывался, спасибо за пинок в нужную сторону. Однако, если все же импортирует дубликаты, а потом их нужно удалять вручную, тогда плохо. Срочно воркать приехало, но я вернусь к этой теме с отчетом о проверке.

В Деже при команде импорт в ТМ из ТМХ вылезает окошечко Remove duplicates, в котором нужно поставить (или не ставить, кому как) галочку.

Trados-nik писал(а):
Валерий Афанасьев писал(а):...Но хуже всего то, что при работе с ТМХ размером около гигабайта (от 700 МБ, скажем) Дежа просто зависает.

Я, конечно, не доводил базы до такого размера. Самые большие были при переводе с английского на французский. Там я подключал ООНовские памяти, но и их я порезал на 3 штуки по 600-800 тыс. сегментов. И ничё, вроде шевелилась, Дежа то :wink: Как Вы меряете "размер"? Я - по количеству сегментов.


Так в том и дело, что в файле ТМХ 1 тыс. сегментов примерно равна 1 мегабайту. При этом, когда это уже собственно ТМ, тогда и миллион сегментов ворочается. Но вот именно призагрузке из ТМХ начинаются зависания.

На вопрос зачем вообще это нужно. Случилось так, что у меня образовалось несколько десятков файлов ТМХ. Причем, во многих из них многие сегменты дублируются, а часть сегментов имеет неверный код языка, но в ТМ при этом все же грузится. Соответственно, задача: а) удалить все дубли и б) перевернуть языки где требуется в правильном направлении. Тем самым приведя память в порядок. Пока иного варианта, чем создание новой ТМ в Деже и последовательного импорта в нее всех ТМХ, одного за другим, я не нашел.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Trados-nik » Пн май 16, 2011 16:36

Валерий Афанасьев писал(а):... Я про импорт из стороннего ТМХ.

Т.е. импорт из присланной кем-то ТМХ в новосозданную или существующую базу? Да, происходит медленно, но происходит. Скажем на ноуте у меня создание и импорт вышеуказанных баз (EN-FR) занял... ну в 10 утра я начал манипулировать, в 3 или 4 дня закончил. Долго. Ускорение процесса находил в яхушной группе: Instead of spending hours importing external dbs into a tdb or mdb, import them into a blank lexicon and then send the lexicon to the desired tdb/mdb. Jost claims it is "done in a heartbeat". Но оно, как бы, термов касается, а я это не пользую. Может и с мемори этот фокус пройдёт, но не пробовал.

Валерий Афанасьев писал(а):...В Деже при команде импорт в ТМ из ТМХ вылезает окошечко Remove duplicates, в котором нужно поставить (или не ставить, кому как) галочку.

Та про окошко я в курсе. Но, почему-то, всегда считал, что оно относится к импортируемому, а потом, поразмыслив, решил, что ежели одно и то же добавляется, то должно перезаписываться - по закону общей логики. Следовательно, ставить или не ставить галку вопрос не стоял. Не ставлю я её. А когда ТМХ в Экселе просматриваю - никогда дубликатов не встречал. Единственно, что напрягает: бывает один и тот же сегмент (и довольно большой) различается на 1 пробел - и всё, уже в базе 2 сегмента (почти идентичных).

Валерий Афанасьев писал(а):...Случилось так, что у меня образовалось несколько десятков файлов ТМХ.

Ну и создайте столько же баз (Петя, Юридический, Ай-Ти, Техника и т.д.). Их же можно пачками подключать. Зачем всё в один бак сливать?

Валерий Афанасьев писал(а):... Причем, во многих из них многие сегменты дублируются,

Ну и что? Оставьте их жить. При подключении на считывание будете выбирать наилучший вариант перевода.

Валерий Афанасьев писал(а):... а часть сегментов имеет неверный код языка,

Тут уж только руками. Надо видеть что на что и куда. В Кальке от Опенофиса хорошо ячейки двигать...

Валерий Афанасьев писал(а):...задача: а) удалить все дубли и б) перевернуть языки где требуется в правильном направлении. Тем самым приведя память в порядок. Пока иного варианта, чем создание новой ТМ в Деже и последовательного импорта в нее всех ТМХ, одного за другим, я не нашел.

Ну не знаю. Раньше я тоже в Деже чистил. Постепенно перешёл на Кальк/Эксель - больше контроля над процессом.
Trados-nik

 
Сообщения: 634
Зарегистрирован: Ср апр 30, 2008 13:58
Откуда: ЦАО - Москва. Метро Таганская, доля... переводческая

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Валерий Афанасьев » Вт май 24, 2011 23:53

Вдруг кому-то интересно будет. MemoQ действительно импортирует (сохраняет) дубликаты при импорте в ТМ из TMX. Это ведет к стремительному разбуханию баз и, как следствие, к тормозам в работе программы и избыточному представлению вариантов в процессе перевода. Лечится исключительно периодическим экспортом обратно в ТМХ и прочисткой через Дежу. Почему в столь функциональной программе, как Мемо опущена такая простая функция - для меня загадка.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Trados-nik » Ср май 25, 2011 10:30

Валерий Афанасьев писал(а):Вдруг кому-то интересно будет. MemoQ действительно импортирует (сохраняет) дубликаты при импорте в ТМ из TMX...

Валера, если это так, то как же тогда, при наличии 100% повторов программа выбирает из 2-х, абсолютно одинаковых (как Вы заявляете) повторов нужный, который она подставляет при переводе? Вы не думаете, что таких повторов нет, или они различаются на 1 пробел (о чём я писал ранее)?

Чем-то "дубликаты" должны отличаться? В противном случае проблема Буриданова осла сделала бы работу программы невозможной :wink:
Trados-nik

 
Сообщения: 634
Зарегистрирован: Ср апр 30, 2008 13:58
Откуда: ЦАО - Москва. Метро Таганская, доля... переводческая

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Валерий Афанасьев » Ср май 25, 2011 11:04

Trados-nik, мне алгоритм выбора непонятен и неизвестен. Хуже того, программа зачастую подставляет при пре-транслейте совсем не тот вариант из ТМ, который лично мне кажется более логичным. Она вываливает в окно выбора вариантов все варианты, в т.ч. одинаковые, типа, выбирай сам.

Согласен. Наверняка эти варианты только кажутся одинаковыми и содержат в себе нечто скрытое, из-за чего программа воспринимает их как разные. Вот и хотелось бы неким образом, без камлания с бубном, узнать, чем один сегмент отличается от другого при условии, что внешне они - как близнецы. Вообще это тоже недостаток программы, я считаю. Дежа ловит и выбрасывает дубликаты хорошо (но очень медленно). А гонять память из программы в программу - неудобно и отнимает время.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Trados-nik » Ср май 25, 2011 11:14

Валерий Афанасьев писал(а): ...мне алгоритм выбора непонятен и неизвестен. Хуже того, программа зачастую подставляет при пре-транслейте совсем не тот вариант из ТМ, который лично мне кажется более логичным. Она вываливает в окно выбора вариантов все варианты, в т.ч. одинаковые, типа, выбирай сам.

Тут, пожалуй, соглашусь в том, что это какая-то туповатая черта Мемки - при претранслейте предложений, состоящих из 7-8 слов и более, она их обрабатывает нормально. Но если сегмент до 5 слов, и при этом претранслейт дал нормальный вариант, требующий минимальной корректировки, то при переходе курсора на этот сегмент, прога кидается в какую-то панику и, в результате, нормальный вариант вдруг меняется на что-то совсем из другой оперы... Именно поэтому перевожу в Мемо только полнословесные документы :-) Когда требуется "ловля мышей" с отслеживанием терминов и рубленых коротких фраз - тут Деже равных нет.

Валерий Афанасьев писал(а): ...Наверняка эти варианты только кажутся одинаковыми и содержат в себе нечто скрытое, из-за чего программа воспринимает их как разные.

А я Вам уже писал: при загрузке этих псевдопохожих сегментов в Эксель, единственным отличием бывает только пробел. При этом, не бывает 3 повторов, только дубли. Из чего делаю вывод, что виноваты гримасы форматирования, которое каждая прога воспринимает по своему. Ваш тезис о невероятном разбухании памяти в силу множества повторов в моей практике не подтверждается, уж извините :wink:

Валерий Афанасьев писал(а): ...Вообще это тоже недостаток программы, я считаю. Дежа ловит и выбрасывает дубликаты хорошо (но очень медленно). А гонять память из программы в программу - неудобно и отнимает время.

Тяжело нам... переводчикам :grin:
Trados-nik

 
Сообщения: 634
Зарегистрирован: Ср апр 30, 2008 13:58
Откуда: ЦАО - Москва. Метро Таганская, доля... переводческая

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Валерий Афанасьев » Ср май 25, 2011 12:17

Trados-nik писал(а):Ваш тезис о невероятном разбухании памяти в силу множества повторов в моей практике не подтверждается, уж извините :wink:


Недавно извлек из Мемы в ТМХ память, что-то около 600 тыс. сегментов. Сделал в Деже новую ТМ и импортнул, поставив галку в remove duplicates. Получившееся извлек обратно в ТМХ. Уполовинилось! То, что у меня ТМ "грязные", это я сам виноват. Но то, что Дежа, пусть и ворочалась часов восемь, но вот так вот вычистила, увы не в пользу Мемы. Скрестить бы их достоинства, убрав недостатки, получилась бы та самая идеальная кошка, о которой переводчики уже и мечтать перестали.
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Trados-nik » Ср май 25, 2011 12:27

Валерий Афанасьев писал(а):...Скрестить бы их достоинства, убрав недостатки, получилась бы та самая идеальная кошка, о которой переводчики уже и мечтать перестали.

Не будет ничего идеального Валера. Плоскогубцы останутся плоскогубцами, а молоток - молотком. Их скрещивание никому не интересно и стоит много денег. Каждый развивает своё направление, и это к лучшему...

Я просто "закрыл" много памятей на запись и пользуюсь новыми. Старые - только на чтение. Все переводы разные, а кошаки, на самом деле, не такие сильные как кажется (даже с учётом новых поколений компов). Истинную ценность составляет то, что у переводчика сумело осесть в черепной коробке и как быстро он этим распоряжается, а не количество накопленных им вариантов. Но это я отвлёкся :wink:
Trados-nik

 
Сообщения: 634
Зарегистрирован: Ср апр 30, 2008 13:58
Откуда: ЦАО - Москва. Метро Таганская, доля... переводческая

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Валерий Афанасьев » Ср май 25, 2011 15:35

В таких терминах, Дежа и Мемо это не молоток и плоскогубцы, а два почти одинаковых плоскогубца (для grammar nazi - правилное склонение слова "плоскогубцы" мне известно :P ), но у одного левая губца кривая, а у другого - правая.

Мысль насчет того, что лучше иметь несколько маленьких памятей, а не одну большую, с нек. пор меня посещает. И чем дальше, тем настойчивее. Что ж, век живи, век учись.

Истинную ценность составляет то, что у переводчика сумело осесть в черепной коробке

Ох, а сколько уже успело из нее выветриться :P :lol:
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Trados-nik » Ср май 25, 2011 15:48

Валерий Афанасьев писал(а):... Ох, а сколько уже успело из нее выветриться :P :lol:

Сам не без того :-) ну так для того конкорданс сёрч и нужен...
Trados-nik

 
Сообщения: 634
Зарегистрирован: Ср апр 30, 2008 13:58
Откуда: ЦАО - Москва. Метро Таганская, доля... переводческая

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Greenvalley » Пт июн 03, 2011 17:45

А функцию Repair в MemoQ не пробовали? Я ей пару раз пользовался - вроде как жужжит, что-то делает. Но базы не очень большие, результаты не так заметны. Попробуйте на своих больших базах - может подействует.

Правой кнопкой надо щелкнуть на названии памяти и выбрать Repair resource
Аватара пользователя
Greenvalley

 
Сообщения: 431
Зарегистрирован: Чт мар 29, 2007 12:24
Откуда: Черногория
Язык(-и): Eng-Rus, Rus-Eng

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Митрич » Пт июн 03, 2011 18:01

Есть подозрение, что многократное сохранение одинаковых сегментов — это не баг, это фича MemoQ. По крайней мере, вот что написано в справке:

«MemoQ looks at each segment together with its context (the segments before and after). When you translate, memoQ automatically stores each segment you confirm and its surrounding segments in the translation memory. If there are two identical segments with identical surrounding segments in the translation document and in the translation memory, the two segments show up as a ContexTM match with a 101% match rate.

ContexTM works automatically when you are using a translation memory that stores the context of segments. It requires no additional setup.

Important: You decide whether or not you want to store context in a translation memory. When you create a new translation memory, the Use context check box is turned on by default. If you do not want to store context in the new TM, uncheck the box before you click OK in the New translation memory dialog. This cannot be changed in an existing translation memory (i.e. once started, you cannot tell memoQ to stop storing context). Instead, you will need to create a new translation memory.

Caution: Two segments with the same source text but different context count as two different segments. In this case, identical source segments can appear in translation memories that do not allow multiple translations for a source segment. If there is a 101% match for a segment, there will be only one 101% match in the TM, but you might also have one or more 100% matches if the same source segment appears in the TM in different contexts. If you really want only one exact match for a source segment in a TM, uncheck ContexTM (that is, uncheck the Use context check box in the New translation memory dialog). In this case, since there is no context, the match percentage will be 100%».
Аватара пользователя
Митрич

 
Сообщения: 89
Зарегистрирован: Пн мар 13, 2006 10:39
Откуда: из СССР

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Валерий Афанасьев » Пт июн 03, 2011 23:44

Greenvalley писал(а):А функцию Repair в MemoQ не пробовали?


Функция Repair не удаляет дубликаты.

Митрич, спасибо. Вот оно что, вот где собака-то порылась. Действительно, я как-то раньше об этом не задумывался. М-да. Не сразу пришло мастерство к молодому сапёру. Но сейчас я полностью реогранизую свои ТМ, проделана гигантская, можно сказать, работа по прогонке их через Олифант, Xbench, Trados и Дежу, пересозданные ТМ, как и советовали, будут read-only. А новые чайники будем убивать пока они маленькие и не превратились в паровозы.

Все бы ничего, но в отсутствие приемлемого универсального инструмента по удалению дубликатов из ТМ и в страшный жор вычислительных ресурсов компьютера на этой задаче дело получилось слегка утомительным. Однако свежевымытая надпись "Конюшни им. тов. Авгия" (вернее, пока только та ее половина, которая En-Ru, другую дочищают)теперь весело сверкает на солнышке :lol:
Валерий Афанасьев
Нефтяник
 
Сообщения: 11525
Зарегистрирован: Чт июл 25, 2002 13:56
Откуда: ВИИЯ

Re: MemoQ: замена/удаление дубликатов сегментов при импорте

Сообщение Mikhail » Сб июн 18, 2011 02:49

Валерий Афанасьев писал(а):На вопрос зачем вообще это нужно. Случилось так, что у меня образовалось несколько десятков файлов ТМХ. Причем, во многих из них многие сегменты дублируются, а часть сегментов имеет неверный код языка, но в ТМ при этом все же грузится. Соответственно, задача: а) удалить все дубли и б) перевернуть языки где требуется в правильном направлении. Тем самым приведя память в порядок. Пока иного варианта, чем создание новой ТМ в Деже и последовательного импорта в нее всех ТМХ, одного за другим, я не нашел.


Валера, я сейчас тем же самым занимаюсь. Только у меня исходные базы были в основном в формате ДежаВю истояла задача слить их в одну, удалить дубликаты, а потом экспортировать в ТМХ для последующего импорта в MEMOQ.
Первый заход оказался неудачным. После слияния всех баз в одну и экспорта файл TMX не открывался полностью ни в Олифанте ни в ДежаВю.
Сейчас начал по новой - каждую базу чищу в ДежаВю (удаление полных дубликатов), потом экспортирую в ТМХ, там чищу дополнительно (удаляю сегменты с одинаковым исходником и переводом, например А - А). И уже эти ТМХ сливаю в одну базу ДежаВю, где буду опять чистить от повторов. Посмотрим на результат...
...один из них мне сказал: «с такими позорными взглядами ты вечно будешь одиноким и несчастным».
Аватара пользователя
Mikhail

 
Сообщения: 1352
Зарегистрирован: Пн ноя 04, 2002 23:27
Откуда: Samara/Sakhalin
Язык(-и): en-ru



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в MemoQ

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3