• Login
    View Item 
    •   DSpace Home
    • Ιδρυματικό Καταθετήριο
    • Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
    • Διπλωματικές Εργασίες
    • View Item
    •   DSpace Home
    • Ιδρυματικό Καταθετήριο
    • Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
    • Διπλωματικές Εργασίες
    • View Item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    T3C: Ένας βελτιωμένος δενδρικός αλγόριθμος κατηγοριοποίησης για εξόρυξη δεδομένων

    Thumbnail
    View/Open
    Διπλωματική εργασία (2.152Mb)
    Date
    2011-07
    Author
    Τζιράκης, Παναγιώτης
    Metadata
    Show full item record
    Abstract
    Σε αυτή τη διπλωματική μελετάμε αλγόριθμους εξόρυξης δεδομένων και πιο συγκεκριμένα αλγορίθμους που ανήκου στην τεχνική της κατηγοριοποίησης. Η κατηγοριοποίηση είναι μια από τις πιο δημοφιλείς τεχνικές εξόρυξης δεδομένων. Περιλαμβάνει τεχνικές όπως δέντρα απόφασης, νευρωνικά δίκτυα και Bayesian κατηγοριοποίηση. Εμείς θα μελετήσουμε τα δέντρα απόφασης. Τα δέντρα απόφασης παρέχουν μαι αναπαράσταση των δεδομένων που είναι εύκολα κατανοητή από τον άνθρωπο. Αυτό που μας ενδιαφέρει στους αλγόριθμους δέντρων απόφασης είναι το μέγεθος, το λάθος κατηγοριοποίησης και το λάθος γενίκευσης. Μας ενδιαφέρει αυτοί οι παράγοντες να είναι μικροί. Το τέλειο είναι να έχουμε ένα πολύ μικρό δέντρο με μηδέν λάθη. Όμως, αυτό δεν μπορεί να γίνει. Είναι όμως εφικτό να υπάρχουν αλγόριθμοι που δίνουν ικανοποιητικά αποτελέσματα για αυτούς τους τρεις παράγοντες. Οι αλγόριθμοι αυτοί διαφέρουν στον τρόπο που κατασκευάζουν το δέντρο. Αυτό επηρεάζεται κυρίως από τον τρόπο που χωρίζουν τις μεταβλητές, τόσο τις διακριτές όσο και τις συνεχείς. Επίσης, διαφέρουν στον τρόπο που πραγματοποιούν ή όχι κλάδεμα μετά ή πριν από τη ολοκλήρωση της κατασκευής του δέντρου. Ο στόχος μας είναι να έχουμε μικρό μέγεθος δέντρου, με μεγάλη ακρίβεια στα αποτελέσματα. Ύστερα από μελέτη αρκετών αλγορίθμων αποφασίσαμε να ασχοληθούμε με τον T3. Ο λόγος που το αποφασίσαμε αυτό είναι το μικρό μέγεθος που έχει και η μεγάλη ακρίβεια στα αποτελέσματα του. Το βάθος του αλγόριθμου αυτού είναι το πολύ τρία. Μελετώντας τον αλγόριθμο αυτό παρατηρήσαμε ότι στη σύγκριση που έγινε με έναν πιο παλιό αλγόριθμο, τον Τ2 (από όπου προέκυψε το T3) τα αποτελέσματα του σε σετ δεδομένων που περιέχουν μόνο συνεχείς μεταβλητές ήταν τα ίδια με του T2. Δηλαδή, δεν επηρεάζεται η ακρίβεια σε σετ δεδομένων που περιέχουν μόνο συνεχείς μεταβλητές. Συγκρίναμε τον T3C και με τον αλγόριθμο C4.5, αλλά και με πιο πρόσφατους αλγορίθμους όπως είναι ο Random Forest και ο Rotation Forest. Τα αποτελέσματα σε σχέση με τους C4.5, Random Forest είναι αρκετά καλά σε σετ δεδομένων που περιέχουν διακριτές και συνεχείς μεταβλητές, ενώ στα σετ δεδομένων που περιέχουν μόνο συνεχείς μεταβλητές τα αποτελέσματα δεν είναι και τόσο ικανοποιητικά. Κάτι ανάλογο ισχύει και στη σύγκριση με τον Rotation Forest, όπου ο T3C αποδίδει καλά σε σετ δεδομένων με μείγμα συνεχών και διακριτών μεταβλητών, και όχι τόσο καλά σε σετ δεδομένων με συνεχείς μεταβλητές μόνο.
    URI
    https://dspace.uowm.gr/xmlui/handle/123456789/2565
    Collections
    • Διπλωματικές Εργασίες

    DSpace software copyright © 2002-2016  DuraSpace
    Contact Us | Send Feedback
    Theme by 
    Atmire NV
     

     

    Χρήσιμα

    Έντυπα παράδοσηςΔιδακτορικής ΔιατριβήςΜεταπτυχιακής Διπλ. ΕργασίαςΠτυχιακής/Διπλωματικής ΕργασίαςΟδηγίες κατάθεσης εργασιών

    Browse

    All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

    My Account

    LoginRegister

    DSpace software copyright © 2002-2016  DuraSpace
    Contact Us | Send Feedback
    Theme by 
    Atmire NV