Skip to content

С помощью баша, питона и pymorphy2 и искреннего желания превращаем текстовичок в список использованных там слов в нормальной форме

Notifications You must be signed in to change notification settings

dpwiz/text2dictionary

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 

Repository files navigation

text2dictionary

С помощью баша, питона и pymorphy2 и искреннего желания превращаем текстовичок в список использованных там слов в нормальной форме плюс ещё пара скриптов, позволяющих угорать над словарями потом.

usage:

git clone https://github.com/hordecore/text2dictionary
cd text2dictionary
cp $yourtextfile your.txt
bash text2dictionary.sh your.file
cat your.file.dict

Зачем вообще

Хочу сделать облавкрафтчиватель - кормим каким-либо образом ему текст, он каждое четвёртое прилагательное заменяет на характерное для произведений лавкрафта.

Сам список характерных для него прилагательных можно получить так:

  1. берём несколько его произведений, складываем в 1 файл
  2. берём несколько произведений других авторов, кладём в другой файл
  3. получаем с помощью text2dictionary из этих файлов словари
  4. с помощью uniq_from_dict1 достаём характерные для лавкрафта слова
  5. с помощью extract_eptitets отфильтровываем только прилагательные

Осталось сделать

Осталось только набрать побольше текстовичков Лавкрафта и других авторов и написать замену каждого 4го прилагательного в тексте на случайное из полученного ранее словаря. Ну и начать угорать и кормить ему книжки по программированию и маны по продуктам на русском языке.

Минусы

Кстати да, работает только с кириллицей.

Полезные ссылки

Описание граммем, используемых в качестве аргументов для morphfilter

About

С помощью баша, питона и pymorphy2 и искреннего желания превращаем текстовичок в список использованных там слов в нормальной форме

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Shell 68.6%
  • Python 31.4%