Константин Лакшин писал(а):По-моему, плюшку/стрелку неплохо было бы перевести на разработчиков.
Да перевести-то можно. Но мы вообще не для Коня Сферического, в Вакууме тут вещаем, а для простых людей. У меня база ТМ на 2+ миллиона сегментов, приехало 50 страниц договора на обеспечение телекоммуникационных услуг для нашего офиса, фуззи - 5%. На кого я, Валерий Афанасьев, буду переводить стрелки, если заказчика грозят уволить за несвоевременное обращение к переводчику (а он и не знал, что договор в базу лигал дипартмента не выложен еще два года назад и только сейчас на аудите всплыло). То есть, как бы понятно, да? Живые ситуации и живые люди на имеющемся инструментарии и умении обращаться с ним с минимальными затратами времени. Можно камлать к разработчикам сколько влезет, но решение нужно вот прямо сейчас. Т.е., меч из булатной стали, но потом, это хуже, чем лом из простого железа, но сейчас.
Константин Лакшин писал(а):Когда имеется новый документ объемом в 1000 слов и ТМ на миллион сегментов (неважно, насколько захламленная)
Вот как раз, черт возьми, это-то и важно
!!! Ибо Entire Agreement. (с точечкой в конце) и Entire Agreement (без точки в конце) в МемоКью дадут фуззи едва ли 85%. Или 74%. А
<<span>Entire Agreement</span>> не дадут никакого фуззи вообще. Т.е., база (или "накопитель переводов") обязана быть максимально очищенной от любого (!!) мусора.
Константин Лакшин писал(а):Ведь тормоза в основном из-за того, что при каждом переходе к новому предложению кошка «листает» весь миллион
"Кошка" и 50 гигабайт пролистает в считанные секунды. У меня Архивариус3000 "держит" индекс на 100 ГБ исходников и ничего, не мучается, крутит. Для "кошки", ТМ ли, важнее другое: она ищет полное, м.б. даже побайтное соответствие: есть знак табуляции в
2.1. Арендодатель обязуется - все, конец конкордансу. Максимум 74% . Ну, МемоКью, по кр. мере, так себя ведет. А он, этот знак табуляции - невидим. Что делать будем? Совершенно верно, вычищать в тех инструментах, в которых он видим.
Как-то так.