-
Notifications
You must be signed in to change notification settings - Fork 5
Home
wojciechdomin edited this page Dec 5, 2024
·
3 revisions
Zaimplementujemy bibliotekę do przetwarzania tekstów w C/C++. Będzie ona udostępniała następujące funkcje:
- dzielenie tekstu na słowa i zdania
- sprawdzanie podstawowych reguł gramatycznych dla danego tekstu (np. sprawdzanie czy zdania zaczynają się dużą literą)
- wyliczanie podobieństwa dwóch zdań
- podstawowe statystyki dla tekstów (zliczanie wystąpień, liczba słów, liter, itd.)
- wyszukiwanie, podmiana wzorca w tekście
Oprócz tego proponujemy nowe funkcjonalności:
- znajdowanie najdłuższego palindromu w tekście
- sprawdzania poprawności nawiasowania w tekście (czy odpowiednie nawiasy się zamykają)
- wyszukiwanie wyrażenia regularnego (tylko dla pewnego podzbioru wyrażeń regularnych, bo oczywiście implementacja pełnego standardu wyrażeń regularnych nie jest na nasze siły)
- kompresja tekstu za pomocą kodowania Huffmana
- szyfr płotkowy
- szyfrowanie RSA
- rozpoznawanie języka za pomocą naiwnego klasyfikatora Bayesa - dla kilku języków, np. polskiego, angielskiego, niemieckiego, czeskiego, fińskiego, hiszpańskiego, francuskiego (powinno działać dla odpowiednio długich tekstów).