Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Статистика при анализе файла

Статистика при анализе файла

Сообщение Le Chat » Чт июл 18, 2013 12:09

Может ли кто-нибудь популярно объяснить, что именно оценивается в графе «Internal Repetition» при анализе файла? Конечный вопрос, собственно, довольно прост и имеет практическую направленность: если в статистике по результатам анализа файла написано, что Duplicates составляют 60%, а Internal Repetition 94%, то это значит, что фактического перевода будет сколько — 40% или 6% от всего текста? Или что-то среднее между 40% и 6%?
Аватара пользователя
Le Chat

 
Сообщения: 110
Зарегистрирован: Чт янв 22, 2009 12:39
Откуда: Санкт-Петербург





Re: Статистика при анализе файла

Сообщение AsIs » Чт июл 18, 2013 12:30

Duplicates = повторы в разных файлах
IR = повторы внутри одного и того же файла.
Например, Файл1 содержит фразу "Подробнее см. инструкцию по эксплуатации" в пяти местах.
вот эти четыре повтора будут рассматриваться как IR.
И, допустим, в Файле2 фраза "Подробнее см. инструкцию по эксплуатации" встречается еще три раза. Статистика покажет 1 Duplicate и 6 (4+2) Internal Repetitions.
В вашем случае, как мне представляется, объем работы будет составлять 6% неповторов внутри файла + 40% недублироуемого текста.
UPD Ну и плюс конечно трудозатраты на перевод первого случая того, что потом на 98% повторяется
UPD2 5+3=8, а 1+6=7, наверное спросите вы... Еще 1 случай пойдет как новое слово.
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU

Re: Статистика при анализе файла

Сообщение Le Chat » Пт июл 19, 2013 16:55

Спасибо, AsIs! Файл у меня, правда, только один, но принцип понятен.
Все же у меня сложилось впечатление, что Internal Repetitions отражают некую общую повторяемость внутри файла (проекта) — что может иметь место при, например, ограниченном словарном запасе автора, — но еще не значит, что внутри разных сегментов этот словарный запас будет скомбинирован в одной и той же конфигурации... то есть придется переводить, а не подставлять из базы. Так что пока для себя делаю вывод, что для оценки реального объема работы надежнее ориентироваться на статистику Duplicate.
Аватара пользователя
Le Chat

 
Сообщения: 110
Зарегистрирован: Чт янв 22, 2009 12:39
Откуда: Санкт-Петербург

Re: Статистика при анализе файла

Сообщение Mikhail » Вт июл 23, 2013 03:02

Le Chat писал(а):Спасибо, AsIs! Файл у меня, правда, только один, но принцип понятен.
Все же у меня сложилось впечатление, что Internal Repetitions отражают некую общую повторяемость внутри файла (проекта) — что может иметь место при, например, ограниченном словарном запасе автора, — но еще не значит, что внутри разных сегментов этот словарный запас будет скомбинирован в одной и той же конфигурации... то есть придется переводить, а не подставлять из базы. Так что пока для себя делаю вывод, что для оценки реального объема работы надежнее ориентироваться на статистику Duplicate.

Насколько я понимаю, DejaVu (и прочие САТ) оперируют именно сегментами как минимальными единицами. Т.е. "внутренние повторения" - это повторения одинаковых сегментов (предложений) в рамках проекта. Внутрь сегмента DejaVu при подсчете статистики не лезет. Если очень хочется, то частотность отдельных слов и выражений заданной длины по всему проекту (файлу) можно посчитать с помощью Лексикона (Lexicon).
...один из них мне сказал: «с такими позорными взглядами ты вечно будешь одиноким и несчастным».
Аватара пользователя
Mikhail

 
Сообщения: 1352
Зарегистрирован: Пн ноя 04, 2002 23:27
Откуда: Samara/Sakhalin
Язык(-и): en-ru

Re: Статистика при анализе файла

Сообщение Le Chat » Ср июл 24, 2013 10:59

Mikhail писал(а):Насколько я понимаю, DejaVu (и прочие САТ) оперируют именно сегментами как минимальными единицами. Т.е. "внутренние повторения" - это повторения одинаковых сегментов (предложений) в рамках проекта. Внутрь сегмента DejaVu при подсчете статистики не лезет. Если очень хочется, то частотность отдельных слов и выражений заданной длины по всему проекту (файлу) можно посчитать с помощью Лексикона (Lexicon).

Если верить тому, что пишут тут
http://tech.groups.yahoo.com/group/dejavu-l/message/111351
(а кому еще верить, если не им?), то все-таки в Internal Repetitions в Deja Vu считают не сегменты. Но и не слова, а (как мне и казалось, на моем fuzzy-уровне технической грамотности :)) нечто среднее между ними ("суб-сегменты") ... А вот duplicates, как писал AsIs, как раз сегменты и есть. Так что остается только присоединиться к мнению из той же ветки выше — Internal Repetitions для переводчика хорошо, но никаких ж/б выводов (например, скидка заказчику или, как было в моем случае, обязательства по срокам) лучше не давать.
Пы.Сы. Ведь знала же, что кто-то где-то уже этим вопросом задавался, да искать было некогда...
Аватара пользователя
Le Chat

 
Сообщения: 110
Зарегистрирован: Чт янв 22, 2009 12:39
Откуда: Санкт-Петербург



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Déjà Vu

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 8