Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Коды в Deja Vu

Коды в Deja Vu

Сообщение sarm » Ср ноя 08, 2006 21:38

Может кто подскажет, что делать с кодами {}, которые попадают в ТМ. Как от них избавиться (ну кроме как конечно вручную)? Эти коды же везде лезут потом. Может быть в настройках программы я что проглядел?

Еще попутно вопросик к пользователям Транзит. Как перебросить из нее ТМ в Deja Vu?

Заранее спасибо.
sarm

 
Сообщения: 30
Зарегистрирован: Ср ноя 08, 2006 21:21
Откуда: Novosibirsk





Сообщение Бродяга » Ср ноя 08, 2006 23:31

Заданный вопрос отвечает сам на себя... И в Деже, и в Транзите.
А потом уже поздно было редактировать. © bagira:)
Аватара пользователя
Бродяга

 
Сообщения: 4948
Зарегистрирован: Ср дек 07, 2005 13:34

Сообщение sarm » Чт ноя 09, 2006 00:03

Уважаемый Бродяга, стоит ли понимать Ваш ответ как "Да, в Деже коды из ТМ можно убирать только вручную"?
sarm

 
Сообщения: 30
Зарегистрирован: Ср ноя 08, 2006 21:21
Откуда: Novosibirsk

Сообщение Бродяга » Чт ноя 09, 2006 13:08

Не следует убирать коды. Ни в Деже, ни в Транзите. Не просто так они придуманы. Просто не вставляйте их в перевод или удаляйте из него.

Если уж очень ее терпится - найдите программку Oliphant. Она позволяет редактировать экспортированную TM. И коды убирать. Хотя результатов никто не гаратирует.
А потом уже поздно было редактировать. © bagira:)
Аватара пользователя
Бродяга

 
Сообщения: 4948
Зарегистрирован: Ср дек 07, 2005 13:34

Сообщение Neva » Чт ноя 09, 2006 14:28

Пардо, можно встрять? Как это "Просто не вставляйте их в перевод"? Так ДЖ ничего же не выгрузит, если в перевод коды не скопировать.
Меня тоже эта проблема с кодами в ТМ мучает, поскольку часто программа не поставляет перевод предложения только потому, что там код на другом месте, хотя предложение один в один.
Neva

 
Сообщения: 1412
Зарегистрирован: Пн дек 23, 2002 17:14
Откуда: Московская область

Сообщение Бродяга » Чт ноя 09, 2006 17:11

Я имел в виду те коды, которые отсутствуют в оригинале, но присутствуют в памяти - их вставлять не надо. Хотя Дежа сама достаточно корректно обрабатывает подобные ситуации. Например, если в сегменте, хранящемся в памяти, одно из слов было выделено жирным шрифтом, а когда этот сегмент встретился вновь, выделения нет, то Дежа не будет вставлять коды. Транзит в этом отношении несколько менее удобен.

Насчёт "не подставляет перевод предложения только потому, что там код на другом месте" могу сказать, что это несколько странно. Программа обычно видит, что текст совпадает полностью, или даже частично, и подставляет подобный сегмент. Конечно, совпадение при этом не будет 100%-ным. Хотя это может зависеть от того, что означает конкретный код.
А потом уже поздно было редактировать. © bagira:)
Аватара пользователя
Бродяга

 
Сообщения: 4948
Зарегистрирован: Ср дек 07, 2005 13:34

Сообщение sarm » Чт ноя 09, 2006 21:58

Ну, все правильно, сами программы свои ТМ как-то обрабатывают, хотя, если текст несколько другой, то коды конкретно путают ситуацию (я имею в виду совпадения), кроме того, мусорные коды надо выкорчевывать и после подстановки. При экспорте в ТМХ они тоже не удаляются, я проверял. Да и лишние они в ТМ, зачем мне жирные, кривые, знаки табуляции и прочее в ТМ таскать.

Получается, как я понял, Дежа (а похоже и все остальные) программно задачу не решает, только руками (ну естественно с помощью Ворда) чистить. Кстати на форуме пробегало решение о создании временной ТМ, в которую сливаются пары нового перевода, с тем, чтобы потом ее почистить и в рабочую экспортировать.
sarm

 
Сообщения: 30
Зарегистрирован: Ср ноя 08, 2006 21:21
Откуда: Novosibirsk

Сообщение Mikhail » Пт ноя 10, 2006 00:10

Рассказываю как я удаляю коды из базы ДежаВю. Допустим имеется база русский-английский.
1. Открываем базу в ДежаВю.
2. Ставим source language (исходный язык) - английский.
3. Нажимаем Ctrl-F (Find - найти) и Replace (заменить)
4. В строке Find ставим открывающую фигурную скобку {.
5. В строке Replace оставляем пустое место.
6. Нажимаем Replace all (Заменить все).
7. Ждем некотрое время. Если база большая, операция может занять до 10-15 минут.
8. Повторяем ту же операцию с исходным языком - русский.

Все коды из базы удалены. База не повреждена.
Я проделываю эту несложную операцию примерно раз в две недели.
...один из них мне сказал: «с такими позорными взглядами ты вечно будешь одиноким и несчастным».
Аватара пользователя
Mikhail

 
Сообщения: 1352
Зарегистрирован: Пн ноя 04, 2002 23:27
Откуда: Samara/Sakhalin
Язык(-и): en-ru

Сообщение Бродяга » Пт ноя 10, 2006 00:14

Mikhail писал(а):Я проделываю эту несложную операцию примерно раз в две недели.


Забавно.
А потом уже поздно было редактировать. © bagira:)
Аватара пользователя
Бродяга

 
Сообщения: 4948
Зарегистрирован: Ср дек 07, 2005 13:34

Сообщение Бродяга » Пт ноя 10, 2006 00:17

sarm писал(а):Получается, как я понял, Дежа (а похоже и все остальные) программно задачу не решает, только руками (ну естественно с помощью Ворда) чистить. Кстати на форуме пробегало решение о создании временной ТМ, в которую сливаются пары нового перевода, с тем, чтобы потом ее почистить и в рабочую экспортировать.


Ещё забавнее...
А потом уже поздно было редактировать. © bagira:)
Аватара пользователя
Бродяга

 
Сообщения: 4948
Зарегистрирован: Ср дек 07, 2005 13:34

Сообщение Mikhail » Пт ноя 10, 2006 05:36

Бродяга писал(а):
Mikhail писал(а):Я проделываю эту несложную операцию примерно раз в две недели.


Забавно.


Бродяга, поясните. Вреда от этой операции никакой не вижу. Я же не в переводимых и переведенных сегментах рабочего проекта удаляю тэги, а в базе, куда тэги переносятся в большом количестве из того же рабочего проекта. После того как я первый раз удалил все тэги из базы приличного размера (порядка 100 000 пар) она стала заметно шустрее "проворачиваться" в ДежаВю. Хотя может мне и показалось.
Согласитесь, что тэги в уже имеющейся базе не несут никакой смысловой или вспомогательной функции, а просто базу утяжеляют.
...один из них мне сказал: «с такими позорными взглядами ты вечно будешь одиноким и несчастным».
Аватара пользователя
Mikhail

 
Сообщения: 1352
Зарегистрирован: Пн ноя 04, 2002 23:27
Откуда: Samara/Sakhalin
Язык(-и): en-ru

Сообщение sarm » Пт ноя 10, 2006 11:39

Mikhail, спасибо за совет, я вот не догадался этим способом воспользоваться, сразу пошел более сложным путем. Сейчас попробовал - все прекрасно работает. 10-15 минут это на ну очень большой базе. У меня базы компактные, в основном тематические и я их подключаю в разных комбинациях, поэтому чистка одной занимает не больше 5 минут. Класс!!!

А вообще ничего забавного не нахожу (это я к Бродяге). Мне вот другое забавно, поделитесь мнением, зачем эти коды вообще в ТМ (не в проекте) нужны. Мне крайне непонятно, поделитесь мнением, почему все CAT затаскивают их в ТМ (притом, что единственное, имхо, назначение ТМ - хранить пары, а не форматирование), между прочим, в Деже, когда создаешь External View можно задать игнорирование кодов, т.е. в программе есть таки возможность обрезки кодов и нужно было только сделать такую опцию для ТМ, пусть пользователь выбирает. Я серьезно, возможно я чего-то не понимаю? Кстати, кроме кодов в ТМ попадает много мусора в виде цифр и прочей ненужной мелочи, но вот это уже нужно руками чистить. Между прочим, правильно было замечено - без мусора ТМ работает быстрее и корректнее.

Попутно. В Деже есть очень интересный инструмент - Лексикон. Я пока до практического использования не дошел, но, судя по описанию в хэлпе, при грамотном использовании, может быть очень и очень полезным (кстати и ТМ можно разгружать и, по-моему, туда коды не таскаются). Вот если бы кто-нибудь из искушенных пользователей сделал небольшой обзор (с прикладным уклоном) этой возможности Deja Vu, было бы, имхо, многим интересно и полезно.
sarm

 
Сообщения: 30
Зарегистрирован: Ср ноя 08, 2006 21:21
Откуда: Novosibirsk

Сообщение Mikhail » Пт ноя 10, 2006 12:00

sarm писал(а):Mikhail, спасибо за совет,

Не за что. Всегда готов поделиться скромными знаниями как и со мной в свое время делились.

sarm писал(а): Кстати, кроме кодов в ТМ попадает много мусора в виде цифр и прочей ненужной мелочи, но вот это уже нужно руками чистить.


Я обычно при переводе на сегменте, который явно засоряет базу (с множеством цифр, однословные заголовки таблици т.п) ставлю метку Do Not Send (Ctrl+Shift+D). Насколько я знаю, можно с помощью SQL чистить базу от паразитных сегментов, но пока сам не разобрался еще. По словам таких гуру как Йост Деште, SQL очень полезный инструмент, но все руки не доходят внимательно его изучить.

sarm писал(а):Попутно. В Деже есть очень интересный инструмент - Лексикон.Я пока до практического использования не дошел, но, судя по описанию в хэлпе, при грамотном использовании, может быть очень и очень полезным (кстати и ТМ можно разгружать и, по-моему, туда коды не таскаются).


Действительно очень полезная штука, сам начал пользоваться относительно недавно. Правда не совсем понял как Лексикон может "разгружать базу".
...один из них мне сказал: «с такими позорными взглядами ты вечно будешь одиноким и несчастным».
Аватара пользователя
Mikhail

 
Сообщения: 1352
Зарегистрирован: Пн ноя 04, 2002 23:27
Откуда: Samara/Sakhalin
Язык(-и): en-ru

Сообщение Бродяга » Пт ноя 10, 2006 13:39

Mikhail писал(а):Бродяга, поясните.


Поясняю. Сильного вреда от этой операции, конечно, нет. Дело только в том, что многие коды реально нужны, а при этой операции они будут удалены все.

А забавно реально то, что у вас база замусоривается так, что раз в две недели её приходится чистить. Попробуйте перед импортом Вордовых файлов делать цикл DOC->RTF->DOC. То есть сохранить исходный DOC, как RTF, закрыть его, открыть вновь, сохранить, как DOC, и уже этот DOC импортировать в Дежу. В подавляющем большинстве после этого тегов (и, как следствие, кодов) станет значительно меньше. Правда, данный подход не помогает в ситуации, когда DOC был получен, например, из PDF или из верстальной программы - там тегов будет сумасшедшее количество, и избавиться от них практически невозможно, даже после ручного переформатирования всего документа.

Ещё пара рекомендаций. По поводу цифр. Не совсем понятно, как они засоряют базу - это такие же символы, как и буквы. Лично я стараюсь их не чистить, а наоборот - обеспечивать корректный перевод цифр и сегментов, содержащих цифры (например, при переводе с английского на русский 1,234.56 меняется на 1 234,56). При этом чем больше корректно переведённых цифровых сегментов в базе, тем корректнее Дежа обрабатывает последующие сегменты. Но если уж очень хочется почистить (или вылизать), то можно использовать следующую простую методику. Откройте базу (TM) и выберите View->Toggle Sorting. После этого цифровые сегменты окажутся в самом начале списка, и с ними легче будет разобраться. То же самое можно делать и при переводе.

Насчёт однословных заголовков таблицы. Насколько я понял, речь идёт о ситуации, когда заголовок таблицы разбит на строки. Например, "Vehicle Speed" разбивается на "Vehicle" и "Speed", и при этом не хочется переводить "Vehicle", как "Скорость", а "Speed" как "автомобиля". Для этого случая существует функция Join (Ctrl+J), которая объединит эти сегменты в один, после чего останется перевести получившийся в результате "Vehicle{1}Speed", как "Скорость {1}автомобиля". После этого, конечно, придётся по ходу дела объединять и все последующие экземпляры таких заголовков, но перевод будет вставлен автоматически. Кстати, обратите внимание на пробел перед кодом в русском переводе выше (в оригинале его нет). Он нужен для того, чтобы когда этот же сегмент встретится в тексте без разбиения, он был выдан корректно. То есть, как "Скорость автомобиля", а не как "Скоростьавтомобиля".

Повторюсь насчёт кодов ещё раз. Они реально нужны, и есть всегда и во всех кошках. Простой пример. Переводим инструкцию по ПО, содержащую предложение "Press the OK button." В переводе, естественно, будет "Нажмите кнопку OK." Предложение это в инструкции, скорее всего, будет встречаться немалое количество раз. И как вы представляете хранение его в базе без тегов (кодов)?

И это только простейший вариант. А представьте презентацию PowerPoint, в которой один сегмент может содержать разные шрифты разных цветов и размеров. Без тегов, естественно, никак. Правда, для переводов PowerPoint Дежа подходит не очень хорошо, в связи с отсутствием WYSIWYG и обязательным соответствием кодов в оригинале и переводе. Тут лучше TagEditor, отображающий всё, как есть (не без глюков, конечно), и позволяющий делать с тегами всё, что душе угодно, вплоть до вставки собственных, отсутствующих в оригинале (а при переводе PowerPoint это частенько приходится делать).
А потом уже поздно было редактировать. © bagira:)
Аватара пользователя
Бродяга

 
Сообщения: 4948
Зарегистрирован: Ср дек 07, 2005 13:34

Сообщение sarm » Пт ноя 10, 2006 13:59

Насчет Do Not Send я в курсе. С недавнего времени, когда стал больше работать в Деже, я сообразил, что лучше отказаться от функции AutoSend (так кажется). Теперь делаю перевод, потом External View для проверки грамматики, и только после этого даю команду отправить пары в ТМ. Вот в этом случае и помогает Do Not Send. В целом, Deja Vu достаточно гибкая среда и дает пользователю большие возможности по приемам работы, хотя и падает иной раз при этом.

Насчет разгрузки ТМ при использовании Лексикона. Если я правильно понял, то Лексикон является отдельной базой (вот только что он физически на диске представляет, не изучал), привязанной к проекту, из которого можно, кстати, получить хороший тематический глоссарий. Поэтому, если Лексикон активно используется, то нет необходимости вносить некоторые специфичные обороты в общую ТМ, можно пользоваться базой Лексикона. Вот так он, на мой взгляд, должен помочь разгрузить ТМ от специфичных пар. Но, повторюсь, я с Лексиконом не работал, и это мои предварительные умозаключения. Хотелось бы услышать знатоков работы с Лексиконом в Deja Vu.

Еще раз спасибо за поддержку Mikhail!
sarm

 
Сообщения: 30
Зарегистрирован: Ср ноя 08, 2006 21:21
Откуда: Novosibirsk

Сообщение sarm » Пт ноя 10, 2006 14:28

Все, что написано Бродягой верно. Так и есть. Вот только мне ТМ нужна как универсальный инструмент, помогающий переводить, а не форматировать, и не только в пределах одного проекта или одной CAT. Я писал, что в пределах одного проекта Deja Vu или Transit, ТМ с кодами может быть полезен (хотя у меня такого не наблюдалось). Если я начинаю новый проект в Деже, она мне все равно все коды покажет и заставит на место поставить, и после подстановки совпадений мне проще добавить недостающие коды, чем корчевать мусорные. А цифры она и так корректно отрабатывает, зачем их, имхо, в ТМ таскать, не понимаю. У меня были таблицы с приблизительно 3000 различных числовых значений. Зачем они мне в ТМ. Я занес туда только фразовые, специфические моменты из этого текста.

Кстати и на счет "Press the OK button." В инструкции от одного производителя может OK жирным, от другого Press. А мне так важнее "Нажмите кнопку OK." А конкретный болд и курсив я все равно вставлю в виде кода, Дежа не позволит этого не сделать. Бродяга, я так и не понял, зачем коды в ТМ таскать, если я эту самую ТМ использую в разных проектах, где форматирование может отличаться как небо и земля?
sarm

 
Сообщения: 30
Зарегистрирован: Ср ноя 08, 2006 21:21
Откуда: Novosibirsk

Сообщение Бродяга » Пт ноя 10, 2006 14:37

sarm

Вы сами практически ответили на свой вопрос
зачем коды в ТМ таскать, если я эту самую ТМ использую в разных проектах, где форматирование может отличаться как небо и земля?"

написав, что
В инструкции от одного производителя может OK жирным, от другого Press."

Это реально будут два разных сегмента. Общего у них - только текст.

sarm писал(а):Вот только мне ТМ нужна как универсальный инструмент, помогающий переводить, а не форматировать, и не только в пределах одного проекта или одной CAT.

Похоже, что вы - потенциальный клиент across. В отличие, например, от меня, которому при техническом переводе приходится заниматься и самим переводом, и форматированием, и вёрсткой.
А потом уже поздно было редактировать. © bagira:)
Аватара пользователя
Бродяга

 
Сообщения: 4948
Зарегистрирован: Ср дек 07, 2005 13:34

Сообщение sarm » Пт ноя 10, 2006 15:32

Именно, что это будут два разных сегмента, а зачем. А нужен только один, который будет автоматически подставлен в Деже (или Транзите или Традосе). Все равно я буду обязан поместить в перевод коды, которые будут в источнике. Из опыта, Дежа (и Транзит) минимум в 50% случаев не может правильно обработать коды, не говоря о том, что база от фактического дублирования неоправданно распухает. А вылизанная ТМ (а равно и выверенная терминологическая база) - это просто прелесть, душа поет! Это как правильно заточенный резец.
--------------------------
Я получаю документы в оригинале (разные форматы) и возвращаю в том же виде перевод. Сложное форматирование все равно плохо обрабатывается программами CAT, поэтому приходится его упрощать, а это значить, что, так или иначе, окончательное форматирование и верстку нужно будет делать в родной программе оригинала. Зачем сюда ТМ примешивать, мне непонятно. Но, это мое мнение и мои приемы работы. Здесь только обмен мнениями.
---------------------------
Про Across знаю, но дистрибутив в 400 метров - это круто, пусть даже бесплатно. Мне кажется, что это будет черепаха, а не помощник. Я люблю лаконичные и гибкие программы. Именно поэтому я обратился к Deja Vu (хотя Транзит мне по-прежнему нравится). Надеюсь, не разочаруюсь в ней.
Хотя пощупать Across, я полагаю, придется.
---------------------------
Бродяга, вот Вы лучше подскажите, как настроить Дежу, чтобы она при сегментировании умела отделять нумерацию 1. или 3.4 и т.д. от текста ( например 28.2 Let run till fluid is depleted from clean fluid tank.), причем между нумерацией и текстом может быть как пробел или два, так и табуляция (так бывает особенно после конвертации из pdf).
sarm

 
Сообщения: 30
Зарегистрирован: Ср ноя 08, 2006 21:21
Откуда: Novosibirsk

Сообщение Бродяга » Пт ноя 10, 2006 15:44

sarm писал(а):Все равно я буду обязан поместить в перевод коды, которые будут в источнике.

Если коды форматирования аккуратненько прописаны в базе, то они корректно вставятся автоматически.
sarm писал(а):подскажите, как настроить Дежу, чтобы она при сегментировании умела отделять нумерацию 1. или 3.4 и т.д. от текста

Боюсь, что в общем случае - никак. Можно, конечно, попытаться настроить правило сегментации, чтобы после цифры с точкой и пробела и цифры без точки о пробела шло разбиение сегментов, но такая настройка по понятным причинам побьёт на мелкие куски все сегменты, содержащие цифры. Единственный вариант - предварительное "лечение" документа в Ворде со вставкой именно нумерации, а не цифр. Тогда в Деже этих цифр вообще не будет, а будут только сами сегменты.
А потом уже поздно было редактировать. © bagira:)
Аватара пользователя
Бродяга

 
Сообщения: 4948
Зарегистрирован: Ср дек 07, 2005 13:34

Сообщение sarm » Пт ноя 10, 2006 16:05

Вот и я про то же. Одно "но" - если переводимый текст от одного, и очень аккуратного производителя (если речь о мануале, например). В других случаях Дежа вставляет те коды, которые есть в паре из ТМ, а это, очень часто, просто мусор для переводимого текста. Ну да ладно, это не беда. Мы это уже победили.
---------------------------
К сожалению, я так и полагал. Настроить правильную сегментацию в таких случаях почти невозможно, а жаль. Сейчас я так и делаю. Но бывает, что цифры перед текстом не есть нумерация (например, значение или номер детали, а затем название), тогда нужно все в таблицу переносить. Приходиться вначале форматировать (корректно) оригинал, а затем уже перегонять в CAT.
Бродяга, спасибо за информацию. Теперь хоть понятно, что я действовал правильно.
sarm

 
Сообщения: 30
Зарегистрирован: Ср ноя 08, 2006 21:21
Откуда: Novosibirsk

След.


Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Déjà Vu

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3