Skip to content
wojciechdomin edited this page Dec 5, 2024 · 3 revisions

Zaimplementujemy bibliotekę do przetwarzania tekstów w C/C++. Będzie ona udostępniała następujące funkcje:

  • dzielenie tekstu na słowa i zdania
  • sprawdzanie podstawowych reguł gramatycznych dla danego tekstu (np. sprawdzanie czy zdania zaczynają się dużą literą)
  • wyliczanie podobieństwa dwóch zdań
  • podstawowe statystyki dla tekstów (zliczanie wystąpień, liczba słów, liter, itd.)
  • wyszukiwanie, podmiana wzorca w tekście

Oprócz tego proponujemy nowe funkcjonalności:

  • znajdowanie najdłuższego palindromu w tekście
  • sprawdzania poprawności nawiasowania w tekście (czy odpowiednie nawiasy się zamykają)
  • wyszukiwanie wyrażenia regularnego (tylko dla pewnego podzbioru wyrażeń regularnych, bo oczywiście implementacja pełnego standardu wyrażeń regularnych nie jest na nasze siły)
  • kompresja tekstu za pomocą kodowania Huffmana
  • szyfr płotkowy
  • szyfrowanie RSA
  • rozpoznawanie języka za pomocą naiwnego klasyfikatora Bayesa - dla kilku języków, np. polskiego, angielskiego, niemieckiego, czeskiego, fińskiego, hiszpańskiego, francuskiego (powinno działać dla odpowiednio długich tekstów).
Clone this wiki locally