T3C: Ένας βελτιωμένος δενδρικός αλγόριθμος κατηγοριοποίησης για εξόρυξη δεδομένων
Abstract
Σε αυτή τη διπλωματική μελετάμε αλγόριθμους εξόρυξης δεδομένων και πιο συγκεκριμένα αλγορίθμους που ανήκου στην τεχνική της κατηγοριοποίησης. Η κατηγοριοποίηση είναι μια από τις πιο δημοφιλείς τεχνικές εξόρυξης δεδομένων.
Περιλαμβάνει τεχνικές όπως δέντρα απόφασης, νευρωνικά δίκτυα και Bayesian κατηγοριοποίηση. Εμείς θα μελετήσουμε τα δέντρα απόφασης. Τα δέντρα απόφασης παρέχουν μαι αναπαράσταση των δεδομένων που είναι εύκολα κατανοητή από τον άνθρωπο.
Αυτό που μας ενδιαφέρει στους αλγόριθμους δέντρων απόφασης είναι το μέγεθος, το λάθος κατηγοριοποίησης και το λάθος γενίκευσης. Μας ενδιαφέρει αυτοί οι παράγοντες να είναι μικροί. Το τέλειο είναι να έχουμε ένα πολύ μικρό δέντρο με μηδέν λάθη. Όμως, αυτό δεν μπορεί να γίνει. Είναι όμως εφικτό να υπάρχουν αλγόριθμοι που δίνουν ικανοποιητικά αποτελέσματα για αυτούς τους τρεις παράγοντες. Οι αλγόριθμοι αυτοί διαφέρουν στον τρόπο που κατασκευάζουν το δέντρο. Αυτό επηρεάζεται κυρίως από τον τρόπο που χωρίζουν τις μεταβλητές, τόσο τις διακριτές όσο και τις συνεχείς. Επίσης, διαφέρουν στον τρόπο που πραγματοποιούν ή όχι κλάδεμα μετά ή πριν από τη ολοκλήρωση της κατασκευής του δέντρου.
Ο στόχος μας είναι να έχουμε μικρό μέγεθος δέντρου, με μεγάλη ακρίβεια στα αποτελέσματα. Ύστερα από μελέτη αρκετών αλγορίθμων αποφασίσαμε να ασχοληθούμε με τον T3. Ο λόγος που το αποφασίσαμε αυτό είναι το μικρό μέγεθος που έχει και η μεγάλη ακρίβεια στα αποτελέσματα του. Το βάθος του αλγόριθμου αυτού είναι το πολύ τρία.
Μελετώντας τον αλγόριθμο αυτό παρατηρήσαμε ότι στη σύγκριση που έγινε με έναν πιο παλιό αλγόριθμο, τον Τ2 (από όπου προέκυψε το T3) τα αποτελέσματα του σε σετ δεδομένων που περιέχουν μόνο συνεχείς μεταβλητές ήταν τα ίδια με του T2. Δηλαδή, δεν επηρεάζεται η ακρίβεια σε σετ δεδομένων που περιέχουν μόνο συνεχείς μεταβλητές.
Συγκρίναμε τον T3C και με τον αλγόριθμο C4.5, αλλά και με πιο πρόσφατους αλγορίθμους όπως είναι ο Random Forest και ο Rotation Forest. Τα αποτελέσματα σε σχέση με τους C4.5, Random Forest είναι αρκετά καλά σε σετ δεδομένων που περιέχουν διακριτές και συνεχείς μεταβλητές, ενώ στα σετ δεδομένων που περιέχουν μόνο συνεχείς μεταβλητές τα αποτελέσματα δεν είναι και τόσο ικανοποιητικά. Κάτι ανάλογο ισχύει και στη σύγκριση με τον Rotation Forest, όπου ο T3C αποδίδει καλά σε σετ δεδομένων με μείγμα συνεχών και διακριτών μεταβλητών, και όχι τόσο καλά σε σετ δεδομένων με συνεχείς μεταβλητές μόνο.