Μέθοδοι επιλογής χαρακτηριστικών για αλγόριθμους μηχανικής μάθησης
Abstract
Στον τομέα της μηχανικής μάθησης και ειδικότερα στο κομμάτι της κατασκευής
μοντέλων πρόβλεψης, η προεπεξεργασία των δεδομένων είναι ένα από τα κυριότερα βήματα που επηρεάζουν σημαντικά την απόδοση των μοντέλων. Ένα συχνό
φαινόμενο στα σύγχρονα σύνολα δεδομένων είναι το τεράστιο μέγεθος, το οποίο τις
περισσότερες φορές συνεπάγεται με περιττή και επαναλαμβανόμενη πληροφορία.
Σημαντικό βήμα της προεπεξεργασίας είναι η αντιμετώπιση τέτοιων φαινομένων με
σκοπό την καλύτερη προετοιμασία των δεδομένων για την εκπαίδευση των τελικών
μοντέλων πρόβλεψης. Η αντιμετώπιση αυτών των φαινομένων επιτυγχάνεται μέσω
των μεθόδων μείωσης διαστάσεων και επιλογής χαρακτηριστικών. Η συγκεκριμένη
διπλωματική εργασία στοχεύει στην ανάλυση και σύγκριση διαφόρων τέτοιων μεθόδων και επικεντρώνεται στο πως τα μετασχηματισμένα δεδομένα που επιστρέφουν
οι μέθοδοι επηρεάζουν την ακρίβεια διαφορετικών ταξινομητών. Η εργασία επεκτείνει επίσης πολλές από τις υπάρχουσες υλοποίησης των μεθόδων εισάγοντας
τεχνικές που προσπαθούν να εντοπίσουν αυτόματα τον βέλτιστο αριθμό μείωσης
διαστάσεων. Για την εξαγωγή των συμπερασμάτων και την αντικειμενική αξιολόγηση των αποτελεσμάτων των μεθόδων χρησιμοποιούνται επτά σύνολα δεδομένων
με διαφορετικό αριθμό χαρακτηριστικών και ιδιοτήτων μεταξύ των στοιχείων. Τα
αποτελέσματα δείχνουν ότι τόσο οι μέθοδοι μείωσης διαστάσεων όσο και πολλές
από τις μεθόδους επιλογής χαρακτηριστικών τείνουν να διατηρούν ή ακόμα και να
αυξάνουν την τελική απόδοση των τελικών μοντέλων, απλοποιώντας παράλληλα σε
μεγάλο βαθμό την πολυπλοκότητα των συνόλων δεδομένων. Συμπερασματικά, η
παρούσα εργασία υπογραμμίζει τη σημασία της προεπεξεργασίας των δεδομένων
και ειδικότερα την απλοποίηση των περίπλοκων συνόλων δεδομένων που συγκροτούνται κυρίως σε σενάρια του πραγματικού κόσμου και προσφέρει καθοδήγηση
για την επιλογή των καταλληλότερων μεθόδων με στόχο τη βελτίωση των αποτελεσμάτων των ταξινομητών.