Υλοποίηση αλγορίθμου Stochastic Forest : σε γλώσσα προγραμματισμού Python
Abstract
Η παρούσα διπλωματική εργασία επικεντρώνεται στην ανάπτυξη και υλοποίηση αλγορίθμων ταξινόμησης μηχανικής μάθησης με στόχο τη βελτίωση της απόδοσης και της γενίκευσης σε προβλήματα ταξινόμησης. Στην εργασία αυτή, παρουσιάζεται και αναλύεται ο αλγόριθμος Stochastic Forest, μια παραλλαγή του Random Forest, η οποία εισάγει στοχαστική επιλογή χαρακτηριστικών κατά την κατασκευή των δέντρων. Αυτή η στοχαστική διαδικασία αποσκοπεί στη μείωση του κινδύνου υπερεκπαίδευσης και στην αύξηση της ποικιλομορφίας των δέντρων, οδηγώντας σε πιο ανθεκτικά και αποδοτικά μοντέλα.
Αρχικά, αναλύεται η θεωρία γύρω από τους κλασικούς αλγορίθμους μηχανικής μάθησης, όπως τα αποφασιστικά δέντρα (Decision Trees) και οι τυχαίοι δασοκόμοι (Random Forests). Στη συνέχεια, παρουσιάζεται η διαδικασία εκπαίδευσης και λειτουργίας του Stochastic Forest, όπου κάθε δέντρο εκπαιδεύεται σε ένα τυχαίο δείγμα των δεδομένων εκπαίδευσης και η επιλογή χαρακτηριστικών για τη διάσπαση των κόμβων βασίζεται σε στοχαστικές μεθόδους. Το τελικό αποτέλεσμα προκύπτει μέσω της μεθόδου πλειοψηφίας των προβλέψεων όλων των δέντρων.
Σημαντικό μέρος της εργασίας αφιερώνεται στην ανάλυση της απόδοσης των αλγορίθμων σε πραγματικά σύνολα δεδομένων, καθώς και στην αξιολόγηση της γενίκευσής τους σε νέα δεδομένα. Μέσω της σύγκρισης με άλλους αλγορίθμους, όπως τα κλασικά αποφασιστικά δέντρα και το Random Forest, αποδεικνύεται ότι ο Stochastic Forest παρουσιάζει βελτιωμένη ανθεκτικότητα σε θορυβώδη ή περίπλοκα δεδομένα.
Τέλος, εξετάζονται τα αποτελέσματα πειραμάτων και αναλύονται τα πλεονεκτήματα και οι περιορισμοί της προσέγγισης αυτής, προτείνοντας μελλοντικές επεκτάσεις και βελτιώσεις στον τομέα των στοχαστικών αλγορίθμων ταξινόμησης.