Skip to content

eeddieg/Data_Analytics_and_Machine_Learning_Ergasia_2

Repository files navigation

Data_Analytics_and_Machine_Learning_Ergasia_2

Cardiotocography

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής ΠΜΣ «Κυβερνοασφάλεια και Επιστήµη Δεδοµένων» Ακαδηµαϊκό έτος 2021-22 (χειµερινό εξάµηνο) Data Analytics and Machine Learning

Από το UCI ML Repository, κατεβάστε το Cardiotocography Data Set από τον σύνδεσµο: https://archive.ics.uci.edu/ml/datasets/Cardiotocography Το σύνολο δεδοµένων Cardiotocography αποτελείται από 2126 CTGs εµβρύων, τα οποία υποβλήθηκαν σε επεξεργασία και µετρήθηκαν 21 χαρακτηριστικά. Τα CTGs ταξινοµήθηκαν από τρεις ειδικούς σε σχέση µε το µορφολογικό µοτίβο FHR (10 κατηγορίες) και την κατάσταση του εµβρύου NSP (3 κατηγορίες). Για περισσότερες λεπτοµέρειες δείτε τις σχετικές δηµοσιεύσεις που αναφέρονται στη σελίδα περιγραφής του dataset.

Ερώτηµα 1: Προπαρασκευή δεδοµένων – υλοποίηση µε εργαλεία στατιστικής επεξεργασίας, υλοποίηση µε R ή Python ή Matlab Από το παραπάνω dataset θα επιλέξετε τα δεδοµένα που θα χρησιµοποιήσετε για αναλυτική επεξεργασία και θα προχωρήσετε σε όποια προπαρασκευαστική εργασία (επιλογή, καθαρισµό, µετασχηµατισµό, δειγµατοληψία, κλπ.) θεωρήσετε απαραίτητη ώστε: α) να «καθαρίσετε» τα δεδοµένα από ελλιπείς ή εσφαλµένες τιµές, β) να κανονικοποιήσετε – διακριτοποιήσετε τα δεδοµένα (π.χ. για αντιµετώπιση των συνεχών πεδίων τιµών), γ) να µειώσετε τον όγκο των δεδοµένων (π.χ., µείωση διαστάσεων).

Ερώτηµα 2: clustering – υλοποίηση µε scikit-learn Χρησιµοποιήστε το dataset µε στόχο να πραγµατοποιήσετε clustering. Αυτό σηµαίνει ότι θα παραλειφθούν τα χαρακτηριστικά στόχοι (FHR και NSP) ώστε να πραγµατοποιηθεί ταξινόµηση χωρίς επίβλεψη. Στο τελικό στάδιο, οι πραγµατικές τιµές του χαρακτηριστικού-στόχου (FHR και NSP) µπορούν να συσχετιστούν µε τις συστάδες που σχηµατίζονται. Με τον τρόπο αυτό θα υπολογιστούν η ακρίβεια και τα σφάλµατα της διαδικασίας, συγκρίνοντας την «κατά πλειοψηφία» τιµή κατηγορίας κάθε συστάδας µε τις πραγµατικές τιµές του χαρακτηριστικού-στόχου για κάθε µέλος της (cluster labeling). Χρησιµοποιήστε τουλάχιστον 3 διαφορετικές τεχνικές που παρέχονται από τη βιβλιοθήκη scikit- learn. Σκοπός είναι να µεγιστοποιήσετε τις επιδόσεις κάθε αλγορίθµου ξεχωριστά κάνοντας δοκιµές µε την προπαρασκευή του dataset και τις παραµέτρους του αλγορίθµου. Συγκρίνετε τις διάφορες προσεγγίσεις. Περιγράψτε τη διαδικασία και εξηγήστε τα αποτελέσµατα που προκύπτουν (π.χ., µε scatter plots και confusion matrices).

Ερώτηµα 3: classification – υλοποίηση µε keras/tensorflow ή Matlab Χρησιµοποιήστε το dataset µε στόχο να εκπαιδεύσετε ένα feed-forward νευρωνικό δίκτυο (MLP), το οποίο θα µαθαίνει από τα 21 χαρακτηριστικά και θα πραγµατοποιεί ταξινόµηση σε 10 µορφολογικά µοτίβα (FHR). Χρησιµοποιήστε 5-fold validation για την εκπαίδευση/αποτίµηση επιδόσεων του µοντέλου. Υπολογίστε το confusion matrix και τους σχετικούς δείκτες επιδόσεων (precision και recall ανά κλάση). Εξηγήστε όσο µπορείτε τα σφάλµατα. Πειραµατιστείτε µε το πλήθος των στρωµάτων του νευρωνικού δικτύου, καθώς και µε το πλήθος των νευρώνων ανά στρώµα νευρώνων. Τεκµηριώστε τις παρατηρήσεις σας.

About

MLP Classification and Unsupervised Clustering

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages