Sakha corpus

Файлы
- data_models.py — API для итерации и индексирования данных, в будущем все данные будут оформлены таким или похожим образом;
- tidy_string.py — разные группы преобразований с целью нормализации;
- profile_characters.py — посмотреть на символы, которые не принадлежат небольшому алфавиту и при этом не улавливаются общими преобразующими правилами;
- pipeline.py — общий пайплайн обработки текста.
  - train_sentence_tok.py — тренировка токенизатора предложений (первая, без препроцессинга. Её результат - файл sakha_edersaas_0.pickle, см. ниже)
- nltk.tokenizer.Punkt для парсинга на предложения
- spacy для токенизации и анализа русксого. (пока не до конца)
- foma конечный преобразователь (FST) для якутского (по правилам в табличке)
  - foma_utils.py функции для работы с морфоанализатором (и в сторону анализа и в сторону генерации).
    Для введённой формы выдаётся словарь с разными возможными морфологическими сегментациями формы и соответствующими анализами

Правила записываются не сразу, а в достаточно абстрактном виде в таблице, которая потом преобразуется в грамматику. В будущем это позволит внеся не слишком большие изменения, добавить новый анализатор, грамматика для которого будет строиться по уже существующей таблице (rules.xlsx).

/foma/rules2foma.py csv файлы в исходники foma (.lexc and .foma)

То, что ниже, в целом уже было сделано до курса:

Парсинг сайта словаря sakhatyla.ru:

collect_words.py, utils.py (с помощью словариков в data-metadata) сбор слов из строки поиска
parse.py, lexemes.py
довольно страшный парсинговый код, но даёт неплохую табличку типа sakhatyla.csv, где представлены слова с сайта с разборами.
Поскольку части речи в словаре странные, русское определение / перевод разбирается в UDPipe и записывается вершина разбора (retag_pos_ud.py: sakhtyla_udtransl.csv)

Итог: сейчас имеем немало текстов, умеем неплохо разбивать якутский текст на предложения, токенизировать их, переводить таблицу с правилами в общем виде в вид фомы, и разбирать слова морфологически по этой грамматике!

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
collect_words		collect_words
data-metadata		data-metadata
doc-imgs		doc-imgs
foma		foma
markup		markup
utils		utils
README.MD		README.MD
collect_words.py		collect_words.py
data_models.py		data_models.py
entries_to_table.py		entries_to_table.py
get_wiki_words.py		get_wiki_words.py
lexemes.py		lexemes.py
lexemes_test_code.py		lexemes_test_code.py
logging_collect_words.conf		logging_collect_words.conf
logging_lexemes.conf		logging_lexemes.conf
logging_parse.conf		logging_parse.conf
parse.py		parse.py
pipeline.py		pipeline.py
profile_characters.py		profile_characters.py
retag_pos_ud.py		retag_pos_ud.py
rules-upd.xlsx		rules-upd.xlsx
tidy_string.py		tidy_string.py
utils.py		utils.py
words_full.txt		words_full.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Sakha corpus

Contents

Installation

Usage

About

Releases

Packages

Languages

bamaxi/sakha-corp-course

Folders and files

Latest commit

History

Repository files navigation

Sakha corpus

Contents

Installation

Usage

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages