Show simple item record

dc.contributor.authorΤζιράκης, Παναγιώτης
dc.date.accessioned2022-04-15T11:22:47Z
dc.date.available2022-04-15T11:22:47Z
dc.date.issued2011-07
dc.identifier.other2633
dc.identifier.urihttps://dspace.uowm.gr/xmlui/handle/123456789/2565
dc.description89 σ., έγχρ. εικ., 30 εκ. + 1 οπτική δισκέτα λέϊζερ Η/Υ (4 3/4 ίν.)en_US
dc.description.abstractΣε αυτή τη διπλωματική μελετάμε αλγόριθμους εξόρυξης δεδομένων και πιο συγκεκριμένα αλγορίθμους που ανήκου στην τεχνική της κατηγοριοποίησης. Η κατηγοριοποίηση είναι μια από τις πιο δημοφιλείς τεχνικές εξόρυξης δεδομένων. Περιλαμβάνει τεχνικές όπως δέντρα απόφασης, νευρωνικά δίκτυα και Bayesian κατηγοριοποίηση. Εμείς θα μελετήσουμε τα δέντρα απόφασης. Τα δέντρα απόφασης παρέχουν μαι αναπαράσταση των δεδομένων που είναι εύκολα κατανοητή από τον άνθρωπο. Αυτό που μας ενδιαφέρει στους αλγόριθμους δέντρων απόφασης είναι το μέγεθος, το λάθος κατηγοριοποίησης και το λάθος γενίκευσης. Μας ενδιαφέρει αυτοί οι παράγοντες να είναι μικροί. Το τέλειο είναι να έχουμε ένα πολύ μικρό δέντρο με μηδέν λάθη. Όμως, αυτό δεν μπορεί να γίνει. Είναι όμως εφικτό να υπάρχουν αλγόριθμοι που δίνουν ικανοποιητικά αποτελέσματα για αυτούς τους τρεις παράγοντες. Οι αλγόριθμοι αυτοί διαφέρουν στον τρόπο που κατασκευάζουν το δέντρο. Αυτό επηρεάζεται κυρίως από τον τρόπο που χωρίζουν τις μεταβλητές, τόσο τις διακριτές όσο και τις συνεχείς. Επίσης, διαφέρουν στον τρόπο που πραγματοποιούν ή όχι κλάδεμα μετά ή πριν από τη ολοκλήρωση της κατασκευής του δέντρου. Ο στόχος μας είναι να έχουμε μικρό μέγεθος δέντρου, με μεγάλη ακρίβεια στα αποτελέσματα. Ύστερα από μελέτη αρκετών αλγορίθμων αποφασίσαμε να ασχοληθούμε με τον T3. Ο λόγος που το αποφασίσαμε αυτό είναι το μικρό μέγεθος που έχει και η μεγάλη ακρίβεια στα αποτελέσματα του. Το βάθος του αλγόριθμου αυτού είναι το πολύ τρία. Μελετώντας τον αλγόριθμο αυτό παρατηρήσαμε ότι στη σύγκριση που έγινε με έναν πιο παλιό αλγόριθμο, τον Τ2 (από όπου προέκυψε το T3) τα αποτελέσματα του σε σετ δεδομένων που περιέχουν μόνο συνεχείς μεταβλητές ήταν τα ίδια με του T2. Δηλαδή, δεν επηρεάζεται η ακρίβεια σε σετ δεδομένων που περιέχουν μόνο συνεχείς μεταβλητές. Συγκρίναμε τον T3C και με τον αλγόριθμο C4.5, αλλά και με πιο πρόσφατους αλγορίθμους όπως είναι ο Random Forest και ο Rotation Forest. Τα αποτελέσματα σε σχέση με τους C4.5, Random Forest είναι αρκετά καλά σε σετ δεδομένων που περιέχουν διακριτές και συνεχείς μεταβλητές, ενώ στα σετ δεδομένων που περιέχουν μόνο συνεχείς μεταβλητές τα αποτελέσματα δεν είναι και τόσο ικανοποιητικά. Κάτι ανάλογο ισχύει και στη σύγκριση με τον Rotation Forest, όπου ο T3C αποδίδει καλά σε σετ δεδομένων με μείγμα συνεχών και διακριτών μεταβλητών, και όχι τόσο καλά σε σετ δεδομένων με συνεχείς μεταβλητές μόνο.en_US
dc.description.sponsorshipΕπιβλέποντες καθηγητές: Δρ. Χρήστος Τζώρτζης και Δρ. Λουκάς Γεωργιάδηςen_US
dc.language.isogren_US
dc.publisherΤζιράκης Παναγιώτηςen_US
dc.relation.ispartofseriesαριθμός εισαγωγής;2633
dc.subjectΑλγόριθμος, εξόρυξη δεδομένων, T3Cen_US
dc.titleT3C: Ένας βελτιωμένος δενδρικός αλγόριθμος κατηγοριοποίησης για εξόρυξη δεδομένωνen_US
dc.title.alternativeT3C: An improved tree categorization algorithm for data miningen_US
dc.typeThesisen_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record