Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

MT2007 => Catnip

Сообщение Andrew Manson » Вт мар 13, 2007 20:25

Спасибо, Бродяга ! Я это учту.
Вообще я переосмысливаю механизм работы программы, действительно, по всем пунктам прихожу к мнению, что Вы правы. Продумываю механизм работы с тегами в вордовском тексте, чтобы сохранять форматирование внутри предложения. Дело в том, что все равно, как работает дежа в этом плане мне не нравится. Мне кажется надо оставлять возможность работы пользователю как в простом режиме (не учитывая тегов), так и в смешанном, т.е. если пользователь не выставил (или не заполнил) теги в переводе - использовать простой режим, захотел выставил все теги как в оригинале или только часть из них, и чтоб программа все это нормально обрабатывала.....Как Вы думаете ?

Ну а пока, я тут написал программку одну, кто-то просил написать утилиту работы с тегами в вордовском файле. Выкладываю в доступ сырой материал:

ftp://cosmos2.info.tm/downloads/CorrectWordTags.rar

Посмотрите, в том направлении я начал делать ? По крайней мере тот файл на немецком, что прислал мне... блин не помню кто, надеюсь он помнит, я избавил от тегов в умлаутах за 1 минуту. Дежа нормально съела потом этот документ.......

Принцип работы:
1) В левом верхнем углу формы список всех параграфов в документе. При выборе параграфа в правом верхнем угле показывается список блоков внутри параграфа, отмеченных тегами.
2) В левом нижнем углу - теги (свойства) для всего параграфа. Можно менять, но в преобразованный файл пока не записываются.
3) в правом нижнем углу - теги (свойства) для выделенного блока, при выборе его в списке. Можно менять руками. Изменения в файл записываются. Можно выделить несколько (или все блоки) и выставить для них одинаковые теги. Можно выделить список блоков и "склеить" их, то есть внутри документа они будут располагаться в одном блоке (и в деже тоже), в этом случае свойства (теги) остаются из того блока, к которому остальные приклеиваются (естетственно можно потом или сначала их поменять).

В общем посмотрите, жду вашего мнения. А то может я неправильно понял, что нужно сделать ?

Да, чуть не забыл, входной файл - вордовский файл, сохраненный в html формате, выходной - тоже. Потом через ворд, понятное дело можно в в обычный doc файл сохранить.....

PS. Как обычно у меня, программа написана под Net 2.0
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27





Сообщение Andrew Manson » Вт мар 13, 2007 20:27

Вдогонку - сильной проверки на ошибки сейчас нет, так что прога может при определенных условиях вылетать. И нет проверки корректности вводимых или редактируемых вами тегов, так что здесь проверка пока на вашей совести 8-)
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew Manson » Вт мар 13, 2007 20:30

Блин, прочитал и увидел неточность - вордовский файл, сохраненный в xml формате, а не html. Пардону прошу 8-)
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew Manson » Вт мар 13, 2007 20:46

еще одно замечание - после сохранения сформированного файла нужно внутри ручками подправить одну строку, она вторая по счету в файле:
<mso>
<? - этот вопросец теряется, просто ручками его надо поставить...
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Бродяга » Вт мар 13, 2007 21:10

Andrew Manson писал(а):Дело в том, что все равно, как работает дежа в этом плане мне не нравится. Мне кажется надо оставлять возможность работы пользователю как в простом режиме (не учитывая тегов), так и в смешанном, т.е. если пользователь не выставил (или не заполнил) теги в переводе - использовать простой режим, захотел выставил все теги как в оригинале или только часть из них, и чтоб программа все это нормально обрабатывала.....Как Вы думаете ?


Думаю точно так же. И абсолютно поддерживаю ваши идеи! Но слишком уж много накопилось форматов. И Office OpenXML - это следствие, а не причина.
А потом уже поздно было редактировать. © bagira:)
Аватара пользователя
Бродяга

 
Сообщения: 4948
Зарегистрирован: Ср дек 07, 2005 13:34

Сообщение Бродяга » Вт мар 13, 2007 21:12

Новую штуку пока не проверял. И в ближайшие 10-15 дней не смогу полноценно проверить. Ибо на мне сейчас, как обычно, то, что не понимает никто...

При этом, естественно, срочно...
А потом уже поздно было редактировать. © bagira:)
Аватара пользователя
Бродяга

 
Сообщения: 4948
Зарегистрирован: Ср дек 07, 2005 13:34

Сообщение Andrej » Ср мар 14, 2007 08:51

Проверю тоже на днях, спасибо за такую инициативу! Кстати, на днях же для тренировок зашлю пару страниц - один конвертированный ПДФ ужасного вида и еще один распознанный скан, который тоже не радует.
К сожалению, из-за разногласий с администрацией я более не участвую в работе данного форума и сайта и ничем не могу вам помочь. Поэтому прошу не писать мне личных сообщений на форуме, если надо, обращайтесь через эл. почту.
Andrej

 
Сообщения: 6417
Зарегистрирован: Вт авг 05, 2003 14:49

Сообщение Andrew Manson » Ср мар 14, 2007 09:15

Ок, посмотрим...
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew Manson » Ср мар 14, 2007 09:48

Для людей впервые скачивающих MT2007, обновил архив до последнего апдейта. То есть, если скачиваете MT2007.rar, то апдейты, упоминаемые в форуме вплоть до MT2007_update3.rar скачивать не нужно.

Интересно, что каждый день, один-два человека скачивают программу. Всего скачало около 30 человек 8-). Хоть бы кто, что-нибудь сказал, из этих людей, а то участвует всего 2-3 человека в обсуждении... 8-(
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение mikegor » Ср мар 14, 2007 11:09

Andrew Manson писал(а):блин не помню кто, надеюсь он помнит

Да я-то помню, скачал уже и посмотрел. Путь избран, на мой взгляд, верный. Сейчас открыл и откорректировал еще один файл, где тоже куча лишних бессодержательных границ между блоками. Все действительно очень быстро приводится в приличный вид. Вопросик после <mso> вставил в конечный файл руками. Спасибо!
Есть два замечания:
1. При объединении блоков иногда теряются пробелы между ними.
2. Программа не показывает символы табуляции, а их желательно видеть.
3. А как быть с вложенными блоками? Такая ситуация в Вордовских файлах возможна?
An Arbeitsplätzen kann es laut zugehen. Verlassen Sie sich nicht auf verbale Kommunikation!
Аватара пользователя
mikegor

 
Сообщения: 2334
Зарегистрирован: Пт дек 02, 2005 20:47
Откуда: Moscow
Язык(-и): нем-рус,дат-рус

Сообщение Andrej » Ср мар 14, 2007 11:18

Andrew Manson писал(а):Как обычно у меня, программа написана под Net 2.0


Значит, не судьба мне попробовать...
К сожалению, из-за разногласий с администрацией я более не участвую в работе данного форума и сайта и ничем не могу вам помочь. Поэтому прошу не писать мне личных сообщений на форуме, если надо, обращайтесь через эл. почту.
Andrej

 
Сообщения: 6417
Зарегистрирован: Вт авг 05, 2003 14:49

Сообщение Andrew Manson » Ср мар 14, 2007 11:18

mikegor писал(а):1. При объединении блоков иногда теряются пробелы между ними.

2. А как быть с вложенными блоками? Такая ситуация в Вордовских файлах возможна?


1. Иногда, насколько я понял, между блоками в самом тексте нет пробелов, а "пробельная ситуация" описывается в тегах, хотя могу и ошибаться. Соответственно и теряются пробелы при конкатенации блоков. Я разберусь.

2. Проанализировав внутренности с десяток документов, такой ситуации я не обнаружил.

Вопрос - нужно ли слияние параграфов ? Я так понял, что иногда, а особенно после распознавания текста из картинок или после преобразования из PDF-а, преобразовалки бьют предложения (разрывают) на отдельные параграфы. Это так ? Делать такое слияние ?
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew Manson » Ср мар 14, 2007 11:19

Andrej писал(а):Значит, не судьба мне попробовать...


А почему ? Скачал ядро НЕТа и поставил, абсолютно ничего не затрагивает в системе, не раз проверено.
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrej » Ср мар 14, 2007 11:20

Не судьба в смысле сегодня))) Некогда. Хотя сейчас вот разберусь со срочными делами, может, вечером и гляну.
К сожалению, из-за разногласий с администрацией я более не участвую в работе данного форума и сайта и ничем не могу вам помочь. Поэтому прошу не писать мне личных сообщений на форуме, если надо, обращайтесь через эл. почту.
Andrej

 
Сообщения: 6417
Зарегистрирован: Вт авг 05, 2003 14:49

Сообщение Andrew Manson » Ср мар 14, 2007 11:21

mikegor писал(а):Программа не показывает символы табуляции, а их желательно видеть.


"не показывает" - в смысле теряются ?
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew Manson » Ср мар 14, 2007 11:31

С табуляцией разобрался - текст после табуляции всегда идет в отдельном блоке, в котором выставлен отдельный тег табуляции, соответственно при слиянии этот тег теряется, а он может стоять только для отдельного блока. Тут 2 варианта - или не сливать такой блок с предыдущими (что геморно контролировать, но можно - например вывести в показ тегов эту инфу о табуляции, сейчас она не показывается) или при слиянии заменять табуляцию пробелами....

Что скажете ?
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Andrew Manson » Ср мар 14, 2007 11:39

кстати, именно из-за табуляции модет происходить "слипание" блоков, то есть как-бы теряется пробел. В тексте пробела нет, а есть табуляция, которая теряется в любом случае, если не заменять пробелами автоматически.
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение mikegor » Ср мар 14, 2007 11:41

Пусть и в левой, и в правой панелях отображаются табы, а уж дальше ответственность будет на пользователе. Захочет объединить - тогда можно их заменить пробелами.
An Arbeitsplätzen kann es laut zugehen. Verlassen Sie sich nicht auf verbale Kommunikation!
Аватара пользователя
mikegor

 
Сообщения: 2334
Зарегистрирован: Пт дек 02, 2005 20:47
Откуда: Moscow
Язык(-и): нем-рус,дат-рус

Сообщение Andrew Manson » Ср мар 14, 2007 13:15

Обновил программу корректировки тегов в Ворде
Лежит по тому же адресу: ftp://cosmos2.info.tm/downloads/CorrectWordTags.rar

Сделал работу с табуляцией, если она есть в блоке - показывается слева от блока. Сверху списка есть поле "Заменять табуляцию на пробелы:", где по умолчанию стоит число 8. Можно менять или убрать - в последнем случае соединяемые с табуляцией блоки "слипнуться", иначе табуляция заменится на указанное кол-во пробелов.

Тем не менее обнаружил, что в паре случаев, там где табуляцией и не пахнет, блоки "слиплись", ислледование структуры блоков показало отсутствие каких либо намеков на наличие пробелов между ними или тегов, описывающих пробелы. Даже простое сохранение текста без изменений в новый файл дает тотже эффект - пробелы пропали. Но этот эффект проявляется в малом количестве случаях...

Кстати, теперь не надо ручками после сохранения менять символ в тексте, получается сразу готовый к открытию в ворде файл...
Andrew Manson

 
Сообщения: 261
Зарегистрирован: Чт мар 01, 2007 13:27

Сообщение Константин Лакшин » Ср мар 14, 2007 19:28

Andrew Manson писал(а):Хоть бы кто, что-нибудь сказал, из этих людей, а то участвует всего 2-3 человека в обсуждении... 8-(


В выходные попробую добраться до попробовать.

После прочтения руководства хочется попробовать подвигнуть на создание еще пары функций.

Во-первых, в служебном меню внизу хотелось бы видеть еще одну вкладку, на которую можно было бы легко занести произвольный кусок из предложения исходного текста и приписать ему перевод для использования до конца работы с файлом.

Во-вторых, не расскажете ли, что из результатов анализа предложения можно выделить в единицу хранения (в принципе, не в существующей версии)? Грубо говоря, можно ли сохранить "Маша мыла раму" как "имя собственное" + "мыла раму"?
Константин Лакшин

 
Сообщения: 2429
Зарегистрирован: Вт авг 26, 2003 20:36
Блог: Просмотр блога (68)

Пред.След.


Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Catnip (МТ2007)

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 2