Show simple item record

dc.contributor.advisorΔημόκας Νικόλαος
dc.contributor.authorΠιερράτου, Ελευθερία
dc.date.accessioned2024-09-25T09:49:44Z
dc.date.available2024-09-25T09:49:44Z
dc.date.issued2024-09
dc.identifier.urihttps://dspace.uowm.gr/xmlui/handle/123456789/4955
dc.description.abstractΣτην παρούσα πτυχιακή εργασία παρουσιάζονται τα αποτελέσματα εκτενούς βιβλιογραφικής έρευνας, καθώς και αλγόριθμοι που αναπτύχθηκαν σχετικά με τις μεθόδους υλοποίησης τεχνικών αυτόματης εξαγωγής σημαντικών λέξεων και φράσεων από κείμενα. Η εργασία αναπτύσσεται σε τέσσερα κεφάλαια. Στο 1 o κεφάλαιο παρουσιάζονται οι λόγοι που καθιστούν σημαντικό το αντικείμενο της εργασίας καθώς και τα προβλήματα με τα οποία σχετίζεται. Στο 2 o κεφάλαιο παρουσιάζονται οι βασικές έννοιες, μέθοδοι και τεχνικές που σχετίζονται με το αντικείμενο της εργασίας. Στόχος είναι να κατανοηθούν σύνθετοι ορισμοί και στοιχεία, με έμφαση στα word embeddings και τα Transformers, καθώς αυτά τα δύο σχετίζονται με τις τεχνικές Word2vec και BERT, αντίστοιχα, η μελέτη των οποίων αφορά το κύριο μέρος της εργασίας. Οι δύο αυτές τεχνικές, Word2Vec και BERT, παρουσιάζονται εκτενώς και αναπτύσσεται η λειτουργία τους και τα μοντέλα που χρησιμοποιούν. Σε ό,τι αφορά το Word2Vec, παρουσιάζονται τα μοντέλα CBOW και Skip-Gram, που εστιάζουν στη δημιουργία πολυδιάστατων διανυσμάτων για την αναπαράσταση των λέξεων με βάση τα συμφραζόμενα. Σε ό,τι αφορά το BERT, ως πιο σύγχρονη τεχνική που εκμεταλλεύεται το μετασχηματιστικό μοντέλο (Transformer), μελετάται το πώς η τεχνική επιχειρεί να κατανοήσει τη σημασία των λέξεων στο ευρύτερο πλαίσιο της πρότασης. Στο 3 o κεφάλαιο, προκειμένου να κατανοηθεί καλύτερα η τεχνική Word2vec, δίνονται παραδείγματα κώδικα με εφαρμογές στην γλώσσα προγραμματισμού Python. Κάθε παράδειγμα εξετάζει διαφορετική περίπτωση λειτουργίας της τεχνικής Word2vec, παρουσιάζοντας στην πράξη τις δυνατότητες και τα πλεονεκτήματα της αυτόματης εξαγωγής σημαντικών λέξεων και φράσεων από κείμενα. Επίσης, γίνε ται σύγκριση της απόδοσης και της ακρίβειας των δύο μοντέλων εφαρμογής της τεχνικής Word2vec. Τέλος, στο 4 o κεφάλαιο παρουσιάζονται αποτελέσματα και συμπεράσματα που προκύπτουν και αφορούν τα πλεονεκτήματα και μειονεκτήματα των δύο τεχνικών και των μοντέλων που τις υποστη ρίζουν. ΄Οπως προκύπτει από τις εφαρμογές κώδικα που αναπτύχθηκαν, η επιλογή της κατάλληλης τεχνικής εξαρτάται από τις απαιτήσεις της κάθε εφαρμογής, με το Word2Vec να είναι ιδανικό για εφαρμογές που απαιτούν ταχύτητα και απόδοση, και το BERT να είναι προτιμητέο για εργασίες που απαιτούν βαθύτερη ανάλυση γλωσσικών δομών. Εν κατακλείδι, η υλοποίηση των τεχνικών αυτών μπορεί να προσφέρει πολύτιμες λύσεις σε ένα ευρύ φάσμα εφαρμογών, από τη βελτίωση των μηχανών αναζήτησης μέχρι την ανάλυση κειμένων σε επιχειρηματικό ή επιστημονικό πλαίσιο. This thesis presents the results of an extensive literature research, as well as algorithms devel oped on the methods of implementing techniques for automatic extraction of important words and phrases from texts. The thesis is developed in four chapters. Chapter 1 presents the reasons that make the subject of the thesis important and the problems to which it is related. Chapter 2 presents the basic concepts, methods and techniques related to the subject of the thesis. The aim is to understand complex definitions and elements, with a focus on word embeddings and Transformers, as these two are related to the Word2vec and BERT techniques, respectively, the study of which is the main part of the thesis. These two techniques, Word2Vec and BERT, are extensively presented and their operation and the models they use are developed. As far as Word2Vec is concerned, the CBOW and Skip-Gram models are presented, which focus on the generation of multidimensional vectors for the contextual representation of words. As for BERT, as a more modern technique exploiting the Transformer model, it is studied how the technique attempts to understand the meaning of words in the broader context of the sentence. In chapter 3, in order to better understand the Word2vec technique, code examples with appli cations in the Python programming language are given. Each example examines a different case of the Word2vec technique, demonstrating in practice the capabilities and advantages of automat ically extracting important words and phrases from text. The performance and accuracy of the two implementation models of the Word2vec technique are also compared. Finally, Chapter 4 presents the results and conclusions obtained concerning the advantages and disadvantages of the two techniques and the supporting models. As can be seen from the code applications developed, the choice of the appropriate technique depends on the requirements of each application, with Word2Vec being ideal for applications requiring speed and performance, and BERT being preferable for tasks requiring deeper analysis of language structures. In conclusion, the implementation of these techniques can provide valuable solutions in a wide range of applications, from search engine enhancement to text analysis in a business or scientific contexten_US
dc.language.isogren_US
dc.publisherΠανεπιστήμιο Δυτικής Μακεδονίας. Σχολή Θετικών Επιστημών. Τμήμα Μαθηματικώνen_US
dc.subjectWord2vecen_US
dc.subjectBERTen_US
dc.subjectCBOWen_US
dc.subjectSkip-Gramen_US
dc.subjectNatural Language Processingen_US
dc.titleΜελέτη και υλοποίηση τεχνικών αυτόματης εξαγωγής σημαντικών φράσεων-λέξεων από κείμενοen_US
dc.typeMSc Thesisen_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record