Σύγκριση αλγορίθμων βελτιστοποίησης για την εκπαίδευση νευρωνικών δικτύων
Abstract
Η τεχνητή νοημοσύνη, η μηχανική μάθηση ως υποσύνολό της και ειδικότερα τα νευρωνικά δίκτυα έχουν γνωρίσει μία ραγδαία εξέλιξη τόσο στο θεωρητικό τους υπόβαθρο, όσο και στις εφαρμογές τους τις τελευταίες δεκαετίες. Στην παρούσα διπλωματική εργασία αφού εκτεθούν οι λόγοι που οδήγησαν στην εκπόνησή της, παρουσιάζονται σύντομα η σχέση τεχνητής ευφυίας και μηχανικής μάθησης και το κυριότερο υποσύνολο της δεύτερης, τα νευρωνικά δίκτυα. Χωρίς να υπάρχει σκοπός ταξινόμησης των νευρωνικών δικτύων, οι κυριότερες κατηγορίες τους, αναλύθηκαν, τόσο θεωρητικά όσο και μέσω εφαρμογής τους σε πραγματικά σύνολα δεδομένων, με τη διαδεδομένη και ελεύθερης χρήσης πλατφόρμα Keras, εξειδικευμένη στα νευρωνικά δίκτυα. Τα κυριότερα από αυτά τα νευρωνικά δίκτυα στο πρώτο θεωρητικό τμήμα αυτής της διπλωματικής είναι τα νευρωνικά δίκτυα εμπροσθο-διάδοσης και οπισθο-διάδοσης, του πολυεπίπεδου αναγνωριστή, τα συνελικτικά και τα επαναλαμβανόμενα ή αναδρομικά δίκτυα με διάφορες παραλλαγές. Επίσης, συνοπτικά εκτέθηκαν τα ακτινικά νευρωνικά δίκτυα, τα αρθρωτά νευρωνικά δίκτυα, οι κωδικοποιητές-αποκωδικοποιητές και κάποια άλλα. Οι μέθοδοι βελτιστοποίησης των νευρωνικών δικτύων αποτελούν το δεύτερο κύριο μέρος του θεωρητικού πλαισίου της διπλωματικής. Η Κάθοδος Κλίσης και διάφορες παραλλαγές της όπως αυτή σε μικρές δεσμίδες ή η στοχαστική κάθοδος κλίσης αποτελεί την κυρίαρχη μέθοδο βελτιστοποίησης των νευρωνικών δικτύων. Εξετάστηκαν και άλλες μέθοδοι όπως η Διάδοση Μέσου Τετραγωνικού Σφάλματος Ροπών, η Adam, η Adagrad, η RFTL, η LION και η Loss Scale Optimizer. Ίσως βέβαια το σημαντικότερο τμήμα της παρούσας διπλωματικής να αποτελεί το επόμενο τμήμα της, στο οποίο υλοποιούνται εφαρμογές διαφόρων νευρωνικών δικτύων και μεθόδων βελτιστοποίησης τους, σε πραγματικά δεδομένα, μέσω των επιλογών που παρέχει το Keras. Ακολουθεί αναλυτικός σχολιασμός και σύγκριση των αποτελεσμάτων που πάρθηκαν και τέλος η σύγκριση μεταξύ τους, που οδηγεί σε σχετικά συμπεράσματα για την αποτελεσματικότητα, την καταλληλότητα και τους χρόνους εκτέλεσης κάποιων νευρωνικών δικτύων και των μεθόδων βελτιστοποίησής τους.