Σύγκριση μεθόδων κλιμάκωσης σε προβλήματα μηχανικής μάθησης

Μαντζάρη, Ζωή

View/Open

Διπλωματική εργασία (15.87Mb)

Date

2021-10

Author

Μαντζάρη, Ζωή

Metadata

Show full item record

Abstract

Η μοντελοποίηση δεδομένων με τη βοήθεια αλγορίθμων μηχανικής μάθησης αποτελεί πλέον σύνηθες φαινόμενο σε αρκετούς επιστημονικούς τομείς. Βέβαια οι αλγόριθμοι μηχανικής μάθησης δε διαθέτουν την ικανότητα αναγνώρισης της ποιότητας των δεδομένων που επεξεργάζονται. Για αυτόν τον λόγο, η προεπεξεργασία των δεδομένων, κρίνεται απαραίτητη για την επιτυχή δημιουργία και λειτουργία των αλγορίθμων μηχανικής μάθησης. Έτσι επίκεντρο της διπλωματικής εργασίας αποτέλεσε η μελέτη αλγορίθμων κλιμάκωσης, μια από τις διαθέσιμες μεθόδους προεπεξεργασίας δεδομένων, σε προβλήματα μηχανικής μάθησης. Συγκεκριμένα, εξετάστηκε πως η κλιμάκωση των συνόλων δεδομένων που πρόκειται να εκπαιδεύσουν έναν αλγόριθμο μηχανικής μάθησης επηρεάζει την ακρίβεια των προβλέψεων του παραγόμενου μοντέλου. Για τη διεξαγωγή της υπολογιστικής μελέτης υλοποιήθηκαν σε γλώσσα Python αλγόριθμοι κλιμάκωσης που ήδη χρησιμοποιούνται ευρέως στον κλάδο της μηχανικής μάθησης, αλλά και αλγόριθμοι κλιμάκωσης που προέρχονται από τον κλάδο του γραμμικού προγραμματισμού, οι οποίοι προσαρμόστηκαν για να λειτουργούν ως μέθοδοι κλιμάκωσης δεδομένων για αλγόριθμους μηχανικής μάθησης. Στο σύνολο αναπτύχθηκαν δεκαεπτά μέθοδοι κλιμάκωσης, οι οποίες εφαρμόστηκαν σε είκοσι διαφορετικά σύνολα δεδομένων. Τα κλιμακούμενα σύνολα δεδομένων εκπαίδευσαν δεκαέξι διαφορετικούς αλγορίθμους μηχανικής μάθησης. Τέλος, έγινε σύγκριση μεταξύ της ακρίβειας των μοντέλων που προήλθαν από κλιμακούμενα δεδομένα και των μοντέλων που έκαναν χρήση των δεδομένων στην αρχική τους μορφή, για την εξαγωγή παρατηρήσεων και συμπερασμάτων, σχετικά με τη δυνατότητα βελτίωσης που μπορεί να παρέχουν οι μέθοδοι κλιμάκωσης στους αλγορίθμους μηχανικής μάθησης. Data modeling with the help of machine learning algorithms is now a common phenomenon in several scientific fields. Of course, machine learning algorithms do not have the ability to recognize the quality of the data being processed. For this reason, the preprocessing of data is considered necessary for the successful creation and operation of machine learning algorithms. Thus, the focus of the dissertation was the study of scaling algorithms, one of the available methods of data preprocessing, on machine learning problems. Specifically, it was examined how the scaling of the datasets that are going to train a machine learning algorithm affects the accuracy of the predictions of the generated model. To conduct the computational study, scaling algorithms were implemented in Python, which are already widely used in the field of machine learning, as well as scaling algorithms derived from linear programming. A total of seventeen scaling methods were developed which were applied to twenty different datasets. The scaled datasets trained sixteen different machine learning algorithms. Finally, a comparison was made between the accuracy of the models derived from scaled data and the models that used the data in their original form, to draw observations and conclusions about the potential for improvement that scaling methods can provide to machine learning algorithms.

URI

https://dspace.uowm.gr/xmlui/handle/123456789/2495

Collections

Διπλωματικές Εργασίες