Zadanie rekrutacyjne do sekcji uczenia maszynowego Koła Naukowego Solvro.
Zadanie polega na eksploracyjnej analizie danych oraz klasteryzacji podanego zbioru. Rozwiązanie wymaga wyczyszczenia i odpowiedniego przygotowania tego zbioru.
Zbiór pochodzi z bazy danych TheCocktailDB. Składa się on z listy koktajli oraz składników potrzebnych do ich przyrządzenia. Celem zadania jest przeprowadzenie analizy eksploracyjnej oraz klasteryzacji tego zbioru. Znajduje się on w folderze data
.
Protip: W kontekście analizy danych i uczenia maszynowego format .json nie jest zbyt wygodny. Zaleca się skorzystanie z funkcji pd.read_json()
należącej do biblioteki Pandas
- Analiza problemu i zbioru danych (EDA - https://en.wikipedia.org/wiki/Exploratory_data_analysis).
- Preprocessing i augmentacja danych (jeśli takowe potrzebne).
- Ewaluacja wyników ilościowa (wybrane metryki) oraz jakościowa (wyniki wizualne).
- Prezentacja wyników przy użyciu Jupyter Notebook’a lub LaTex’a.
- podział kodu na osobne pliki, notebooki Jupytera powinny być użyte tylko do wizualizacji wyników
- plik z wersjami użytych bibliotek dependencies.txt, environment.yaml, pyproject.toml
- formatowanie kodu (Python - PEP8) oraz dobre nazewnictwo funkcji i ich opis
- plik README z instrukcjami jak zainstalować odpowiednie biblioteki oraz powtórzyć wykonane eksperymenty
- umieszczenie plików w odpowiednich folderach w repozytorium
- Python wraz z bibliotekami scikit-learn oraz Pandas
- inne języki programowania wykorzystywane w uczeniu maszynowym takie jak R czy Julia
Masz pytanie? Napisz do nas kn.solvro@pwr.edu.pl lub otwórz issue na repozytorium.