dc.description.abstract | Περίληψη
Η στατιστική μάθηση είναι ένας κλάδος της μηχανικής μάθησης που εφαρμόζει στατιστικές μεθόδους για την επεξεργασία ενός συνόλου δεδομένων, με σκοπό την εξαγωγή συμπερασμάτων ή τη λήψη αποφάσεων που θα μπορούν να προβλέψουν πιθανές μελλοντικές συμπεριφορές.
Οι μέθοδοι στατιστικής μάθησης που έχουν αναπτυχθεί είναι πολλές, χωρίς κάποια από αυτές να είναι αντικειμενικά καλύτερη από τις υπόλοιπες. Το πλήθος των χαρακτηριστικών που επηρεάζουν την πρόβλεψη, η μορφή και η κατανομή τους καθώς και το επιθυμητό αποτέλεσμα, είναι μόνο κάποιες από τις παραμέτρους που καθορίζουν τη συμπεριφορά των εφαρμοζόμενων μεθόδων, καθεμιά από τις οποίες στηρίζεται σε διαφορετική μαθηματική προσέγγιση. Σύνολα δεδομένων που συγκεντρώνονται καθημερινά από διάφορους τομείς είναι στη διάθεση των επιστημόνων για μελέτη και επεξεργασία και αποτελεί πραγματική πρόκληση η ενασχόληση με αυτά, τόσο για επαγγελματικούς όσο και για ερευνητικούς λόγους.
Στην παρούσα εργασία αρχικά μελετήθηκαν και παρουσιάστηκαν κάποιες μέθοδοι επιβλεπόμενης μάθησης θεωρητικά, αναλύοντας το μαθηματικό υπόβαθρο που χρησιμοποιείται από αυτές για να προσεγγιστεί το επιθυμητό αποτέλεσμα. Ακολούθησε η πρακτική εφαρμογή των μεθόδων αυτών για τη δημιουργία μοντέλων στατιστικής μάθησης, με χρήση της Python για την υλοποίησή τους. Συγκεκριμένα, το επιδιωκόμενο αποτέλεσμα ήταν η αντιστοίχιση των δεδομένων σε μια από δύο προκαθορισμένες κατηγορίες και στη συνέχεια η σύγκριση των μεθόδων που εφαρμόστηκαν. Το μέτρο που χρησιμοποιήθηκε για τη σύγκριση των μεθόδων ήταν η ακρίβεια των προβλέψεων σε μορφή ποσοστού και οι πίνακες σύγχυσης που έδωσαν μια σαφή εικόνα των σωστών και λανθασμένων προβλέψεων ανά κατηγορία πρόβλεψης. Τα σύνολα δεδομένων που χρησιμοποιήθηκαν περιείχαν τόσο αριθμητικά χαρακτηριστικά, όσο και χαρακτηριστικά με μορφή κειμένου, που απαιτούσαν επεξεργασία φυσικής γλώσσας για την εφαρμογή των μεθόδων κατηγοριοποίησης. Τα αποτελέσματα των μεθόδων συγκρίθηκαν μεταξύ τους, αλλά και με αποτελέσματα άλλων ερευνών, για κάθε σύνολο δεδομένων ξεχωριστά και ακολούθησε η εξαγωγή συμπερασμάτων, αφήνοντας ανοιχτό το πεδίο της έρευνας για περαιτέρω βελτίωση της απόδοσης των μεθόδων.
Abstract
Statistical learning is a field of machine learning that applies statistical methods to process a set of data to draw conclusions or make decisions that can predict possible future behaviors.
The methods of statistical learning that have been developed are many, without any of them being objectively better than the rest. The number of features that affect their prediction, their shape and distribution as well as the desired result are just some of the parameters that determine the behavior of the applied methods, each of which is based on a different mathematical approach. Data sets collected daily from various fields are at the disposal of scientists for study and processing and it is a real challenge to engage with them for both business and research purposes.
In the present study, some methods of supervised learning were initially studied and presented theoretically, analyzing the mathematical background used by them to reach the desired outcome. The implementation of these methods follows, creating models of statistical learning, using Python for this purpose. Specifically, the desired result was to categorize the data to one of two predefined classes and then to compare the methods applied. The measure used to compare the methods was the percentage precision of prediction and the confusion matrix that gave a clear picture of the correct and wrong predictions by prediction category. The datasets used included both numerical and textual features that required natural language processing to implement classification methods. The results of the methods were compared with each other, but also with the results of other surveys, for each data set separately, followed by conclusions, leaving the door of the research open for further improvement in the performance of the methods. | en_US |