Ανάπτυξη νέων αλγορίθμων εξόρυξης δεδομένων
Abstract
Ο σκοπός της παρούσας διπλωματικής εργασίας ήταν η ανάπτυξη δύο νέων
αλγορίθμων εξόρυξης δεδομένων, για το πρόβλημα της κατηγοριοποίησης. Ο πρώτος, ο
Constrained K-Means Classification, είναι αλγόριθμος κατηγοριοποίησης μέσω
ομαδοποίησης ενώ ο δεύτερος, ο Stochastic Forest, είναι αλγόριθμος - κατηγοριοποιητής
ομάδας.
Οι δύο νέοι αλγόριθμοι αξιολογήθηκαν σε πλήθος σύνολων δεδομένων από το UCI
machine learning repository, μεταξύ των οποίων και τα πιο γνωστά και χρησιμοποιημένα.
Έγινε επίσης συγκριτική μελέτη σε σχέση με αρκετούς γνωστούς αλγορίθμους εξόρυξης
δεδομένων και φυσικά με τους επικρατέστερους αλγορίθμους που χρησιμοποιούνται για
κατηγοριοποίηση μέσω ομαδοποίησης (K-Means) και κατηγοριοποίηση με τη μέθοδο
ομάδων (Random Forest).
Ακόμα, ο πρώτος αλγόριθμος αξιολογήθηκε ως προς την ικανότητα εφαρμογής του σε
ένα ιατρικό πρόβλημα, για την εκτίμησης της εξέλιξης της ίνωσης του ήπατος, από εικόνες
βιοψίας, αλλά και ως προς την καταλληλότητά του για το πρόβλημα συγκριτικά με έναν
τους πιο γνωστούς αλγορίθμους κατηγοριοποίησης.
Τα αποτελέσματα από την αξιολόγηση και των δύο αλγορίθμων, είναι ενθαρρυντικά,
παρουσιάζουν σημαντικά ποσοστά επιτυχίας, με βάση και τις τρεις μετρικές απόδοσης που
χρησιμοποιήθηκαν (Accuracy, Sensitivity, Precision). Επιπλέον, παρουσιάζουν καλύτερα
αποτελέσματα από τους επικρατέστερους αλγορίθμους στην κατηγορία τους.
The scope of this thesis was the development of two data mining algorithms,
specifically on the field of classification. The first algorithm, Constrained K-Means
Classification, is a classification via clustering algorithm, while the second, Stochastic
Forest, is an ensemble classifier.
Both algorithms were evaluated with numerous datasets from the “UCI machine
learning repository”, including the most used and well known datasets. Also, comparative
study took place, between our algorithms and several well known classification algorithms
and of course the dominant algorithm on their fields, classification via clustering algorithm
(K-Means) and ensemble classification (Random Forest).
Furthermore, the first algorithm was evaluated on its ability to be applied to the
medical problem of predicting the severity of liver fibrosis out of liver biopsy images. Also,
it was evaluated on the problem compared to a well know classification algorithm.
The evaluation of both algorithms, presented significant and encouraging results,
according to all metrics used (Accuracy, Sensitivity, Precision). Moreover, they present
significant improvement compared to the algorithms mentioned above., on their category
respectively.