Show simple item record

dc.contributor.authorΜακρίδης, Φώτιος
dc.date.accessioned2019-09-02T09:06:36Z
dc.date.available2019-09-02T09:06:36Z
dc.date.issued2019-06
dc.identifier.citation4379en_US
dc.identifier.urihttps://dspace.uowm.gr/xmlui/handle/123456789/1510
dc.description.abstractΠερίληψη Το θέμα της παρούσας διπλωματικής εργασίας πραγματεύεται μερικές από τις τεχνικές μηχανικής μάθησης, οι οποίες μπορούν να χρησιμοποιηθούν για την κατανόηση και επεξεργασία της φυσικής γλώσσας ως προς το συναισθηματικό της ύφος. Σκοπός της παραπάνω ανάλυσης αποτελεί η εκτίμηση των χρηματιστηριακών μετοχών τριών διαφορετικών εταιρειών στο χώρο της αυτοκινητοβιομηχανίας. Τα δεδομένα τα οποία συλλέγονται και χρησιμοποιούνται, πρόκειται για δεδομένα κειμένου τα οποία προέρχονται από δύο διαφορετικές πηγές. Το πρώτο στάδιο μετά τη συλλογή τους είναι η επεξεργασία τους και στη συνέχεια εφαρμόζεται η τεχνική της ανάλυσης συναισθήματος (Sentiment Analysis). Όπως προαναφέρθηκε, τα δεδομένα των κειμένων τα οποία συλλέγονται προέρχονται από δύο διαφορετικές πηγές. Η πρώτη πηγή είναι το οικονομικό portal Investing.com και η δεύτερη πηγή είναι ένα από τα πιο δημοφιλή κοινωνικά δίκτυα, το Twitter. Τα κείμενα από την πρώτη πηγή προέρχονται από άρθρα δημοσιογράφων που δημοσιεύονται στο Investing.com ενώ τα κείμενα της δεύτερης πηγής είναι αναρτήσεις/δημοσιεύσεις χρηστών στην πλατφόρμα του Twitter (tweets). Τα δεδομένα αυτά αφορούν τρεις (3) αυτοκινητοβιομηχανίες/κολοσσούς, οι οποίες είναι η Tesla, η Ford και η Volkswagen αντίστοιχα. Η ανάλυση των κειμένων και η εκτίμηση των μετοχών βασίζεται σε τρία (3) διαφορετικά μοντέλα. Το πρώτο μοντέλο αφορά την ανάλυση και επεξεργασία των δεδομένων που προέρχονται μόνο από το Twitter, το δεύτερο μοντέλο εφαρμόζεται σε δεδομένα που προέρχονται μόνο από τα άρθρα του Investing ενώ το τρίτο μοντέλο πρόκειται για τον συνδυασμό των δύο πρώτων περιπτώσεων που προαναφέρθηκαν, δηλαδή τον συνδυασμό δεδομένων τόσο από το Twitter όσο και από το Investing. Επομένως, για κάθε αυτοκινητοβιομηχανία προέκυψαν τρεις συλλογές δεδομένων (Datasets), στις οποίες προστέθηκαν οι πραγματικές εναλλαγές των τιμών μετοχών των εταιρειών, προερχόμενες επίσης από την ιστοσελίδα του Investing.com. Η επεξεργασία των κειμένων περιλαμβάνει την ομαδοποίηση των δεδομένων ανά ημέρα, την αφαίρεση των σημείων στίξης αλλά και λέξεων χωρίς κάποια ιδιαίτερη αξία, όσον αφορά την ανάλυση συναισθήματος (stop words). Στη συνέχεια έγινε χρήση τριών διαφορετικών λεξικών, τα οποία αξιολογούν τα κείμενα ως προς το συναισθηματικό ύφος, υλοποιημένα με διαφορετικές τεχνικές, αλλά με κοινό στόχο να αποτυπώσουν το συναισθηματικό φόρτο της κάθε λέξης. Από κάθε λεξικό, προκύπτει ένας συναισθηματικό τόνος (tone index) για κάθε εγγραφή των datasets. Επιπλέον, όσον αφορά τις συλλογές δεδομένων των tweets, συλλέχτηκαν αντιδράσεις (user interactions) οι οποίες γίνονται από τους χρήστες στην πλατφόρμα του Twitter και αφορούν τον αριθμό των retweets και των favorites, ενώ επίσης υπολογίστηκε ο αριθμός των αναφορών (mentions - @), των ετικετών (hashtags - #), το σύνολο των επιθέτων, ουσιαστικών και ρημάτων. Μετά την ολοκλήρωση της συλλογής όλων των δεδομένων και της επεξεργασίας τους, ερευνήθηκαν διάφορες τεχνικές και αλγόριθμοι μηχανικής μάθησης, με τη βοήθεια των οποίων προκύπτουν τα αποτελέσματα και η εκτίμηση των χρηματιστηριακών μετοχών των εταιρειών. Οι ταξινομητές μηχανικής μάθησης (Machine Learning Classifiers) οι οποίοι χρησιμοποιήθηκαν ήταν η Μέθοδος Κ-Κοντινότερων Γειτόνων (k-nearest neighbors algorithm - KNN), η οικογένεια αλγορίθμων Απόφασης Δένδρου (Decision Tree) και ο αλγόριθμος Τυχαίου Δάσους (Random Forest). Σε τελικό στάδιο, πραγματοποιήθηκε σύγκριση των μοντέλων που αναπτύχθηκαν και των αποτελεσμάτων τους, ενώ τέθηκαν ορισμένες μελλοντικές επεκτάσεις των διαδικασιών, οι οποίες αποβλέπουν τόσο στον επιστημονικό όσο και στον επιχειρηματικό τομέα. Abstract The topic of the present Master thesis deals with some of the techniques of machine learning, which can be used in order to process and understand the natural language, considering their sentiment analysis. Furthermore, as a result of the above process and analysis, there were made estimations of the stock market price of three (3) different automotive industries. The data that were collected and used, come from two different sources and were processed and applied into them the technique of the Sentiment Analysis. As mentioned above, the data that were collected from two different sources. The first one is the financial portal Investing.com and the latter one is one of the most popular social media platforms, Twitter. The texts from the first source derive from articles that are posted from journalists in the website Investing.com, whereas the texts from the second source are tweets that are posted from a variety of accounts, in the Twitter platform. These data are about three (3) giant automotive industries, Tesla, Ford and Volkswagen. Text analysis and stock market price estimations are being held in three (3) different models. The first one includes only the analysis and the processing of the data that come from Twitter, the second one includes only the analysis and the processing of the data that come from Investing.com and the last one is a result of the combination of the two (2) previous models mentioned. Thus, for each company three (3) different datasets arose, in which were added the actual stock market price changes per day, collected also from Investing.com. The text processing contains the grouping of plain texts per day, the subtraction of the punctuation marks and the subtraction of a specific group of words, named as stop words that are filtered out before the processing of natural language data. This kind of words usually refer to the most common words in a language, such as articles, conjunctions and pronouns. Afterwards, there were used three (3) different lexicons, that appraise the processed texts as for theirs sentimental form and level, implemented with different techniques but with the common goal to reflect the sentimental load of each individual word. For each lexicon, there is a total sum for each day. Moreover, as for the Twitter Datasets, there were collected some Twitter reactions that are being made by the users and have to do with the number of retweets and favorites, whilst additionally there were calculated the number of mentions (@), the number of hashtags (#) and the numbers of adjectives, nouns and verbs. In the articles’ part, it was calculated the total number of articles for each day. After the completion of the data collection and processing, some techniques and machine learning algorithms were investigated, which aided to study the natural language and the estimation of the stock market prices of the automotive industries. The classifiers that were used were the k-nearest neighbors algorithm (KNN), the Decision Tree family algorithms and the Random Forest algorithm. In the final part of the thesis, there were made comparisons between the results of the estimations of the models that were built and there were addressed some future extensions that can be applied into, which focus in both the academic and industry sectors.en_US
dc.description.sponsorshipΣαρηγιαννίδης Παναγιώτηςen_US
dc.language.isogren_US
dc.publisherΜακρίδης Φώτιοςen_US
dc.relation.ispartofseriesαρ. εισ.;4379
dc.subjectΧρηματιστηριακές μετοχές, μηχανική μάθηση, ανάλυση συναισθήματος, Investing.com, Twitter Api, ταξινομητές, Random Forest, k-nearest neighbors algorithm, Decision Tree, λεξικά, crawlers, εξόρυξη δεδομένων, ανάλυση συναισθήματος, εκτίμηση.en_US
dc.titleΣύγκριση μεθόδων για την εκτίμηση χρηματιστηριακής μετοχής στην αυτοκινητοβιομηχανία με την χρήση αλγορίθμων μηχανικής μάθησηςen_US
dc.typeThesisen_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record