Τεχνικές προεπεξεργασίας δεδομένων στη μηχανική μάθηση

Καντρίου, Μάριο

View/Open

Διπλωματική εργασία (888.9Kb)

Date

2021-02

Author

Καντρίου, Μάριο

Metadata

Show full item record

Abstract

Η προεπεξεργασία δεδομένων αποτελεί μέθοδο εξόρυξης δεδομένων που περι- λαμβάνει τη μετατροπή στοιχείων σε πιο αντιληπτή μορφή. Στόχος της παρούσας διπλωματικής είναι η εξέταση συνόλων δεδομένων και η εξαγωγή αποτελεσμά- των ακρίβειας πριν και μετά την προεπεξεργασία δεδομένων. Για να επιτευχθεί αυτό γίνεται χρήση πέντε αλγορίθμων κατηγοριοποίησης και οκτώ αλγορίθμων πα- λινδρόμησης. Στα πλαίσια των υπολογιστικών πειραμάτων έγιναν όλοι οι δυνατοί συνδυασμοί σε είκοσι διαφορετικά σύνολα δεδομένων (δέκα για κατηγοριοποίηση και δέκα για παλινδρόμηση). Κατά τη διάρκεια των υπολογιστικών πειραμάτων γίνεται η σύγκριση όλων των αλγορίθμων, οι οποίοι χρησιμοποιούν διαφορετικούς αλγόριθμους αντιμετώπισης ελλιπών τιμών (imputers) καθώς επίσης και αλγόριθ- μους κλιμάκωσης (scalers). Το τελικό συμπέρασμα που εξάγεται είναι η εύρεση του αλγορίθμου μηχανικής μάθησης που σε συνδυασμό με κάποιον αλγόριθμο κλιμάκω- σης είναι ο καταλληλότερος και καλύτερος, δηλαδή θα έχει το μεγαλύτερο ποσοστό ακρίβειας σε σχέση με τους υπόλοιπους συνδυασμούς μετά την προεπεξεργασία των δεδομένων του κάθε συνόλου δεδομένων. Data preprocessing is a method of data mining that involves converting data into a more perceptible form. The aim of the thesis is to examine datasets and extract accurate results before and after data processing. To achieve this, five classification algorithms and eight regression algorithms are used. As part of the computational experiments, all possible combinations were made in twenty different datasets (ten for classification and ten for regression). During the computational experiments, all combinations that use different algorithms for dealing with missing values (imputers) as well as scaling algorithms are compared (scalers). The final conclusion that is drawn is the machine learning algorithm which in combination with a scaling algorithm is the most appropriate and accurate, i.e., it will have the highest accuracy compared to the other combinations after the preprocessing of each dataset.

URI

https://dspace.uowm.gr/xmlui/handle/123456789/2714

Collections

Διπλωματικές Εργασίες