Σύγκριση μεθόδων κλιμάκωσης σε προβλήματα μηχανικής μάθησης
Abstract
Η μοντελοποίηση δεδομένων με τη βοήθεια αλγορίθμων μηχανικής μάθησης αποτελεί πλέον σύνηθες φαινόμενο σε αρκετούς επιστημονικούς τομείς. Βέβαια οι αλγόριθμοι μηχανικής μάθησης δε διαθέτουν την ικανότητα αναγνώρισης της ποιότητας
των δεδομένων που επεξεργάζονται. Για αυτόν τον λόγο, η προεπεξεργασία των
δεδομένων, κρίνεται απαραίτητη για την επιτυχή δημιουργία και λειτουργία των
αλγορίθμων μηχανικής μάθησης. Έτσι επίκεντρο της διπλωματικής εργασίας αποτέλεσε η μελέτη αλγορίθμων κλιμάκωσης, μια από τις διαθέσιμες μεθόδους προεπεξεργασίας δεδομένων, σε προβλήματα μηχανικής μάθησης. Συγκεκριμένα, εξετάστηκε πως η κλιμάκωση των συνόλων δεδομένων που πρόκειται να εκπαιδεύσουν
έναν αλγόριθμο μηχανικής μάθησης επηρεάζει την ακρίβεια των προβλέψεων του
παραγόμενου μοντέλου. Για τη διεξαγωγή της υπολογιστικής μελέτης υλοποιήθηκαν σε γλώσσα Python αλγόριθμοι κλιμάκωσης που ήδη χρησιμοποιούνται ευρέως
στον κλάδο της μηχανικής μάθησης, αλλά και αλγόριθμοι κλιμάκωσης που προέρχονται από τον κλάδο του γραμμικού προγραμματισμού, οι οποίοι προσαρμόστηκαν
για να λειτουργούν ως μέθοδοι κλιμάκωσης δεδομένων για αλγόριθμους μηχανικής μάθησης. Στο σύνολο αναπτύχθηκαν δεκαεπτά μέθοδοι κλιμάκωσης, οι οποίες
εφαρμόστηκαν σε είκοσι διαφορετικά σύνολα δεδομένων. Τα κλιμακούμενα σύνολα
δεδομένων εκπαίδευσαν δεκαέξι διαφορετικούς αλγορίθμους μηχανικής μάθησης.
Τέλος, έγινε σύγκριση μεταξύ της ακρίβειας των μοντέλων που προήλθαν από κλιμακούμενα δεδομένα και των μοντέλων που έκαναν χρήση των δεδομένων στην
αρχική τους μορφή, για την εξαγωγή παρατηρήσεων και συμπερασμάτων, σχετικά
με τη δυνατότητα βελτίωσης που μπορεί να παρέχουν οι μέθοδοι κλιμάκωσης στους
αλγορίθμους μηχανικής μάθησης.
Data modeling with the help of machine learning algorithms is now a common
phenomenon in several scientific fields. Of course, machine learning algorithms do
not have the ability to recognize the quality of the data being processed. For this
reason, the preprocessing of data is considered necessary for the successful creation
and operation of machine learning algorithms. Thus, the focus of the dissertation was
the study of scaling algorithms, one of the available methods of data preprocessing,
on machine learning problems. Specifically, it was examined how the scaling of the
datasets that are going to train a machine learning algorithm affects the accuracy of
the predictions of the generated model. To conduct the computational study, scaling
algorithms were implemented in Python, which are already widely used in the field of
machine learning, as well as scaling algorithms derived from linear programming. A
total of seventeen scaling methods were developed which were applied to twenty
different datasets. The scaled datasets trained sixteen different machine learning
algorithms. Finally, a comparison was made between the accuracy of the models
derived from scaled data and the models that used the data in their original form, to
draw observations and conclusions about the potential for improvement that scaling
methods can provide to machine learning algorithms.