Skip to content

Latest commit

 

History

History
27 lines (21 loc) · 1.73 KB

machine_learning.md

File metadata and controls

27 lines (21 loc) · 1.73 KB

Machine learning

Zadanie rekrutacyjne do sekcji uczenia maszynowego Koła Naukowego Solvro.

Opis zadania

Zadanie polega na eksploracyjnej analizie danych oraz klasteryzacji podanego zbioru. Rozwiązanie wymaga wyczyszczenia i odpowiedniego przygotowania tego zbioru.

Zbiór danych

Zbiór pochodzi z bazy danych TheCocktailDB. Składa się on z listy koktajli oraz składników potrzebnych do ich przyrządzenia. Celem zadania jest przeprowadzenie analizy eksploracyjnej oraz klasteryzacji tego zbioru. Znajduje się on w folderze data.

Protip: W kontekście analizy danych i uczenia maszynowego format .json nie jest zbyt wygodny. Zaleca się skorzystanie z funkcji pd.read_json() należącej do biblioteki Pandas

Wymagania

  • Analiza problemu i zbioru danych (EDA - https://en.wikipedia.org/wiki/Exploratory_data_analysis).
  • Preprocessing i augmentacja danych (jeśli takowe potrzebne).
  • Ewaluacja wyników ilościowa (wybrane metryki) oraz jakościowa (wyniki wizualne).
  • Prezentacja wyników przy użyciu Jupyter Notebook’a lub LaTex’a.
  • podział kodu na osobne pliki, notebooki Jupytera powinny być użyte tylko do wizualizacji wyników
  • plik z wersjami użytych bibliotek dependencies.txt, environment.yaml, pyproject.toml
  • formatowanie kodu (Python - PEP8) oraz dobre nazewnictwo funkcji i ich opis
  • plik README z instrukcjami jak zainstalować odpowiednie biblioteki oraz powtórzyć wykonane eksperymenty
  • umieszczenie plików w odpowiednich folderach w repozytorium

Sugerowane technologie

  • Python wraz z bibliotekami scikit-learn oraz Pandas
  • inne języki programowania wykorzystywane w uczeniu maszynowym takie jak R czy Julia

Masz pytanie? Napisz do nas kn.solvro@pwr.edu.pl lub otwórz issue na repozytorium.