Τεχνικές προεπεξεργασίας δεδομένων στη μηχανική μάθηση
Abstract
Η προεπεξεργασία δεδομένων αποτελεί μέθοδο εξόρυξης δεδομένων που περι-
λαμβάνει τη μετατροπή στοιχείων σε πιο αντιληπτή μορφή. Στόχος της παρούσας
διπλωματικής είναι η εξέταση συνόλων δεδομένων και η εξαγωγή αποτελεσμά-
των ακρίβειας πριν και μετά την προεπεξεργασία δεδομένων. Για να επιτευχθεί
αυτό γίνεται χρήση πέντε αλγορίθμων κατηγοριοποίησης και οκτώ αλγορίθμων πα-
λινδρόμησης. Στα πλαίσια των υπολογιστικών πειραμάτων έγιναν όλοι οι δυνατοί
συνδυασμοί σε είκοσι διαφορετικά σύνολα δεδομένων (δέκα για κατηγοριοποίηση
και δέκα για παλινδρόμηση). Κατά τη διάρκεια των υπολογιστικών πειραμάτων
γίνεται η σύγκριση όλων των αλγορίθμων, οι οποίοι χρησιμοποιούν διαφορετικούς
αλγόριθμους αντιμετώπισης ελλιπών τιμών (imputers) καθώς επίσης και αλγόριθ-
μους κλιμάκωσης (scalers). Το τελικό συμπέρασμα που εξάγεται είναι η εύρεση του
αλγορίθμου μηχανικής μάθησης που σε συνδυασμό με κάποιον αλγόριθμο κλιμάκω-
σης είναι ο καταλληλότερος και καλύτερος, δηλαδή θα έχει το μεγαλύτερο ποσοστό
ακρίβειας σε σχέση με τους υπόλοιπους συνδυασμούς μετά την προεπεξεργασία
των δεδομένων του κάθε συνόλου δεδομένων.
Data preprocessing is a method of data mining that involves converting data into
a more perceptible form. The aim of the thesis is to examine datasets and extract
accurate results before and after data processing. To achieve this, five classification
algorithms and eight regression algorithms are used. As part of the computational
experiments, all possible combinations were made in twenty different datasets (ten
for classification and ten for regression). During the computational experiments, all
combinations that use different algorithms for dealing with missing values (imputers)
as well as scaling algorithms are compared (scalers). The final conclusion that is
drawn is the machine learning algorithm which in combination with a scaling algorithm
is the most appropriate and accurate, i.e., it will have the highest accuracy compared
to the other combinations after the preprocessing of each dataset.