Μελέτη και υλοποίηση τεχνικών αυτόματης εξαγωγής σημαντικών φράσεων-λέξεων από κείμενο
Abstract
Στην παρούσα πτυχιακή εργασία παρουσιάζονται τα αποτελέσματα εκτενούς βιβλιογραφικής έρευνας, καθώς και αλγόριθμοι που αναπτύχθηκαν σχετικά με τις μεθόδους υλοποίησης τεχνικών αυτόματης εξαγωγής σημαντικών λέξεων και φράσεων από κείμενα.
Η εργασία αναπτύσσεται σε τέσσερα κεφάλαια. Στο 1
o κεφάλαιο παρουσιάζονται οι λόγοι που
καθιστούν σημαντικό το αντικείμενο της εργασίας καθώς και τα προβλήματα με τα οποία σχετίζεται.
Στο 2
o κεφάλαιο παρουσιάζονται οι βασικές έννοιες, μέθοδοι και τεχνικές που σχετίζονται με το
αντικείμενο της εργασίας. Στόχος είναι να κατανοηθούν σύνθετοι ορισμοί και στοιχεία, με έμφαση
στα word embeddings και τα Transformers, καθώς αυτά τα δύο σχετίζονται με τις τεχνικές Word2vec
και BERT, αντίστοιχα, η μελέτη των οποίων αφορά το κύριο μέρος της εργασίας. Οι δύο αυτές
τεχνικές, Word2Vec και BERT, παρουσιάζονται εκτενώς και αναπτύσσεται η λειτουργία τους και
τα μοντέλα που χρησιμοποιούν. Σε ό,τι αφορά το Word2Vec, παρουσιάζονται τα μοντέλα CBOW
και Skip-Gram, που εστιάζουν στη δημιουργία πολυδιάστατων διανυσμάτων για την αναπαράσταση
των λέξεων με βάση τα συμφραζόμενα. Σε ό,τι αφορά το BERT, ως πιο σύγχρονη τεχνική που
εκμεταλλεύεται το μετασχηματιστικό μοντέλο (Transformer), μελετάται το πώς η τεχνική επιχειρεί να
κατανοήσει τη σημασία των λέξεων στο ευρύτερο πλαίσιο της πρότασης.
Στο 3
o κεφάλαιο, προκειμένου να κατανοηθεί καλύτερα η τεχνική Word2vec, δίνονται παραδείγματα
κώδικα με εφαρμογές στην γλώσσα προγραμματισμού Python. Κάθε παράδειγμα εξετάζει διαφορετική
περίπτωση λειτουργίας της τεχνικής Word2vec, παρουσιάζοντας στην πράξη τις δυνατότητες και τα
πλεονεκτήματα της αυτόματης εξαγωγής σημαντικών λέξεων και φράσεων από κείμενα. Επίσης, γίνε ται σύγκριση της απόδοσης και της ακρίβειας των δύο μοντέλων εφαρμογής της τεχνικής Word2vec.
Τέλος, στο 4
o κεφάλαιο παρουσιάζονται αποτελέσματα και συμπεράσματα που προκύπτουν και
αφορούν τα πλεονεκτήματα και μειονεκτήματα των δύο τεχνικών και των μοντέλων που τις υποστη ρίζουν. ΄Οπως προκύπτει από τις εφαρμογές κώδικα που αναπτύχθηκαν, η επιλογή της κατάλληλης
τεχνικής εξαρτάται από τις απαιτήσεις της κάθε εφαρμογής, με το Word2Vec να είναι ιδανικό για
εφαρμογές που απαιτούν ταχύτητα και απόδοση, και το BERT να είναι προτιμητέο για εργασίες που
απαιτούν βαθύτερη ανάλυση γλωσσικών δομών. Εν κατακλείδι, η υλοποίηση των τεχνικών αυτών
μπορεί να προσφέρει πολύτιμες λύσεις σε ένα ευρύ φάσμα εφαρμογών, από τη βελτίωση των μηχανών
αναζήτησης μέχρι την ανάλυση κειμένων σε επιχειρηματικό ή επιστημονικό πλαίσιο. This thesis presents the results of an extensive literature research, as well as algorithms devel oped on the methods of implementing techniques for automatic extraction of important words and
phrases from texts.
The thesis is developed in four chapters. Chapter 1 presents the reasons that make the subject
of the thesis important and the problems to which it is related. Chapter 2 presents the basic
concepts, methods and techniques related to the subject of the thesis. The aim is to understand
complex definitions and elements, with a focus on word embeddings and Transformers, as these
two are related to the Word2vec and BERT techniques, respectively, the study of which is the main
part of the thesis. These two techniques, Word2Vec and BERT, are extensively presented and their
operation and the models they use are developed. As far as Word2Vec is concerned, the CBOW
and Skip-Gram models are presented, which focus on the generation of multidimensional vectors
for the contextual representation of words. As for BERT, as a more modern technique exploiting
the Transformer model, it is studied how the technique attempts to understand the meaning of
words in the broader context of the sentence.
In chapter 3, in order to better understand the Word2vec technique, code examples with appli cations in the Python programming language are given. Each example examines a different case
of the Word2vec technique, demonstrating in practice the capabilities and advantages of automat ically extracting important words and phrases from text. The performance and accuracy of the
two implementation models of the Word2vec technique are also compared.
Finally, Chapter 4 presents the results and conclusions obtained concerning the advantages and
disadvantages of the two techniques and the supporting models. As can be seen from the code
applications developed, the choice of the appropriate technique depends on the requirements of
each application, with Word2Vec being ideal for applications requiring speed and performance, and
BERT being preferable for tasks requiring deeper analysis of language structures. In conclusion, the
implementation of these techniques can provide valuable solutions in a wide range of applications,
from search engine enhancement to text analysis in a business or scientific context