Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Программа для анализа повторяемости фраз в тексте

Программа для анализа повторяемости фраз в тексте

Сообщение Cowboy » Ср окт 07, 2020 13:42

Лет 10 назад я попробовал программку для анализа текста. Эта программа выводит в виде таблицы повторяемые в тексте буквенно-цифровые наборы, начиная с самых длинных.
Например:
При невыполнении данного условия - 32
В противном случае - 18
И так далее до самых коротких сочетаний:
Но в - 4
И в - 3
Программка мне показалась любопытной, не более. Но сейчас бы она мне очень пригодилась. Названия, конечно не помню. Может, кто-то пользовался похожей программой?
P.S. Подозреваю, можно написать скрипт и даже ограничить минимальный набор символов. Но я в скриптах не силен.
P.P.S. Сам ТРАДОС тоже анализирует текст на повторяемость, но не выводит список фраз. Или я ошибаюсь?
С печатью интеллекта под глазами... (R) Ольга Арефьева
Аватара пользователя
Cowboy

 
Сообщения: 1430
Зарегистрирован: Чт сен 08, 2005 10:40
Откуда: Казахстан, пос. Иргиз
Язык(-и): английский <> русский





Re: Программа ддля анализа повторяемости фраз в тексте

Сообщение OlegV » Ср окт 07, 2020 14:10

Студия может экспортировать (в режиме анализа файла или проекта):
- неизвестные сегменты (Unknown Segments)
- часто повторяющиеся сегменты (Frequent Segments)

Выберите Пакетные задачи, Анализ, а потом установите нужный флажок.
OlegV

 
Сообщения: 385
Зарегистрирован: Сб дек 11, 2004 15:57
Откуда: СПб
Язык(-и): EN->RU

Re: Программа для анализа повторяемости фраз в тексте

Сообщение Vic » Ср окт 07, 2020 20:07

В Deja vu этим занимается функция Лексикон. На основе ТМ собирает повторяющиеся фрагменты фраз. При создании лексикона задается предельное число слов, входящие в анализ (число слов, а не символов, в отличие от вашего примера).
Vic

 
Сообщения: 1972
Зарегистрирован: Вт дек 16, 2003 13:40
Откуда: Москва

Re: Программа для анализа повторяемости фраз в тексте

Сообщение Cowboy » Чт окт 08, 2020 08:33

Спасибо OlegV, буду пробовать.
Спасибо Vic. С программой я знаком слабо, но учту как вариант.
С печатью интеллекта под глазами... (R) Ольга Арефьева
Аватара пользователя
Cowboy

 
Сообщения: 1430
Зарегистрирован: Чт сен 08, 2005 10:40
Откуда: Казахстан, пос. Иргиз
Язык(-и): английский <> русский

Re: Программа для анализа повторяемости фраз в тексте

Сообщение Bookworm » Чт окт 08, 2020 17:19

Если я правильно понял задачу, тут еще подойдут различные term extraction tools. Например, древний, но в целом рабочий Multiterm Term Extract.
Я никогда не верил в сказки про равенство людей: физик-ядерщик легко может разобраться в законодательстве или выучить несколько иностранных языков, но ни один гуманитарий не сможет запустить ядерный реактор.
Аватара пользователя
Bookworm

 
Сообщения: 1907
Зарегистрирован: Вс июн 14, 2009 11:28
Откуда: Тула
Язык(-и): русский-английский

Re: Программа для анализа повторяемости фраз в тексте

Сообщение Бычара » Чт окт 08, 2020 17:20

Это же экскремент мамонта, туляк.
И смайлики, конечно же, - три, как и положено по нормативам )))
Аватара пользователя
Бычара
Бык Маллиган
 
Сообщения: 2915
Зарегистрирован: Сб июл 16, 2011 14:23

Re: Программа для анализа повторяемости фраз в тексте

Сообщение Bookworm » Чт окт 08, 2020 17:34

Бычара писал(а):Это же экскремент мамонта, туляк.

Согласен, он жутко древний. Но я недавно решал такую же задачу, перепробовал кучу online tools - и все же самый нормальный список выдала именно эта античность.
Я никогда не верил в сказки про равенство людей: физик-ядерщик легко может разобраться в законодательстве или выучить несколько иностранных языков, но ни один гуманитарий не сможет запустить ядерный реактор.
Аватара пользователя
Bookworm

 
Сообщения: 1907
Зарегистрирован: Вс июн 14, 2009 11:28
Откуда: Тула
Язык(-и): русский-английский

Re: Программа для анализа повторяемости фраз в тексте

Сообщение AsIs » Чт окт 08, 2020 21:37

TextSTAT это делает (бесплатная программа).
http://neon.niederlandistik.fu-berlin.de/en/textstat/
Найдите поиском текст: TextSTAT 2.9c for Windows (ZIP file, approx. 8 MB, Feb 20, 2014)
Насколько я помню, это портативка.
Там нажимаете Corpus — New corpus, потом Add local file, прописываете файл, который надо анализировать, переходите на вкладку Word forms и давите кнопку Frequency list. Если настройки не менять, то он проанализирует все слова на количество повторений. Отчет можно выгружать в иксель.
Если загрузите в нее "Войну и мир", можно узнать, сколько там предлогов "в".
AsIs

 
Сообщения: 1081
Зарегистрирован: Ср сен 22, 2010 16:13
Язык(-и): RU-EN-RU



Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Полезное программное обеспечение. Аллея Бродяги

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 10