Константин Лакшин писал(а):Согласен, что дело вкуса. Соображения два: (а) разбазаривание ресурсов и (b) испытывающие/испытуемые, перепуганные странным поведением документа в ворде и зависаниями при прикосновении к нему, которые не станут с вами водиться.
Понятно, но: а) расход ресурсов будет одинаков а обоих случаях, не важно, показывается Ворд или нет. А вообще, мне кажется, что приоритетным должен являться прямой разбор файла без участия Ворда, что в нашем случае можно делать или с форматами Office Open XML (формат 2007-го офиса), или из XML файла. В этом случает не используется вспомогательное средство (Ворд), меньшее потребление ресурсов. Импорт docx файлов сейчас уже есть, импорт происходит достаточно быстро (уважаемый Бродяга тестировал по сравнению с другими кошками). Правда пока не все учитывается там, например пропадает табуляция, гиперссылки, но это поправимо. Кроме того, текст выцепляется "чистый" без знаков форматирования, которые попадаются при получении данных из Ворда. Конечно в последнем случае они чистятся, но все равно сложнее проводить сегментацию предложений. Ну и при парсинге самого файла намного проще работать с внутренними служебными тегами, описывающими формат сегментов в предложении. Пример работы с такими тегами - в моей программе CorrectWordTags. Единственное преимущество импорта через Ворд - это дополнительная функция в МТ2007, когда находясь в какой-либо секцции и нажав кнопку "Перейти" в Ворде выделяется и показывается эта секция. Удобно, чтобы окинуть взглядом сам текст, если из контекста не понятно (например куча картинок, а в кошке только подписи к рисункам - посмотреть к чему относится).
Константин Лакшин писал(а):Доп. к (b): В руководстве поминаются "букмарки". Как мне показалось, файл для разборки автоматически копируется. Так? Если не так, то страшновато пускать такого зверя в живой файл, в котором могут водиться его сородичи. Успокойте, пожалуйста.
Да, вы правы, файл копируется в папку проекта. Оригинал не трогается. Букмарки выставляются для каждого предложения, но только при разборе текста средствами Ворда.
Константин Лакшин писал(а):Если у меня есть идеально сегментированный текст, грубо говоря, я могу (1) импортировать его в некую программу, которая не будет сопротивляться моим взглядам на сегментацию или (2) воспользоваться подручными средствами поиска и замены. Угадайте, что я выберу, если мне будут навязывать сегментацию? :=)
Что для этого можете предложить? Делать просто импорт текста из внешнего источника или настраиваемые фильтры ?
Константин Лакшин писал(а):Давайте уточнимся: sentence (в моем сообщении) относилось к определению в VBA, т. е. к "тупому" варианту.
Уточниться стоит, потому что я сам иногда путаюсь, что
подразумевается под сегментом, что под предложением....
Константин Лакшин писал(а):Кстати о птичках: давным-давно, когда Лексикон был достаточно общепринятым редактором, на меня почти устрашающее впечатления произвела программка Add/Strip для Мака, которая необъяснимо хорошо боролась с форматированием пробелами и переносами (что лежало внутри, не знаю).
Здесь проблема такого рода: представьте ситуацию - заголовок документа. Состоит из нескольких фраз, которые в документа для красоты отформатированы так:
фраза<Enter>
<Enter>
фраза<Enter>
фраза<Enter>
В ворде они все обозначаются разными параграфами. Чтобы алгоритм, определяющий предложения сработал, надо во-первых подать на него весь текст (а в обычном тексте в параграфах содержатся законченные блоки-предложения), то есть при обычном разборе на алгоритм подается параграф, внутри которого производится разбор - 1-я проблема. Чтобы снять эту проблему надо или отформатировать текст полагающимся образом, или попытаться сделать это автоматически. Автоматически в данном случае не получится, так как опять-же нужно анализировать текст с точки зрения знания правил построения предложения. Можно убрать "лишние" знаки форматирования, НО, кто даст гарантию, что эти несколько фраз действительно являются одним предложением ? - 2-я проблема. В общем получается, что перед импортом текста необходимо его форматировать дополнительно ручками или мириться с тем как программа его разбивает на предложения.....
Константин Лакшин писал(а):Постараюсь в ближайшие 72 часа разразиться полным набором технических требований. В них нет ничего сверхъестественного, но, увы, как показывает опыт, крупнейшие и ведущие по части CAT воспринимают их с жутким скрипом.
А вот за это спасибо, это было-бы очень-и-очень интересно почитать.........