Μέθοδοι αναπλήρωσης τιμών σε χρονοσειρές
Abstract
Η παρουσία ελλιπών τιμών σε πολυμεταβλητές χρονοσειρές αποτελεί ένα
καθολικό πρόβλημα που παρατηρείται έντονα στην ανάλυση δεδομένων, αφού
όχι μόνο υπονομεύει την ακεραιότητα των χρονοσειρών, αλλά δυσχεραίνει και
τη διεξαγωγή μιας αποτελεσματικής ανάλυσης των δεδομένων της εκάστοτε
χρονοσειράς. Η συγκεκριμένη εργασία στοχεύει στη βαθύτερη κατανόηση
των χαρακτηριστικών, που παρουσιάζουν οι χρονοσειρές, των μηχανισμών
έλλειψης που συναντούνται στα σύνολα δεδομένων, των τρόπων με τους οποίους
αντιμετωπίζονται οι ελλείψεις των τιμών ενός συνόλου δεδομένων, καθώς και
των διάφορων διαθέσιμων μεθόδων αναπλήρωσης αυτών. Πιο συγκεκριμένα,
χρησιμοποιήθηκαν πέντε πολυμεταβλητές χρονοσειρές στις οποίες παράχθηκαν
διαφορετικά ποσοστά ελλιπών τιμών (10%, 20%, 30%, 40%, 50%) , όπου
εντοπίζεται το μοτίβο έλλειψης τιμών Missing Completely at Random (MCAR)
με σκοπό την εφαρμογή και αξιολόγηση των επιλεγμένων μεθόδων αναπλήρωσης
ελλιπών τιμών. Συγκρίθηκαν και αξιολογήθηκαν οι επιδόσεις τόσο στατιστικών
μεθόδων (Mean, Median, Mode, Linear Regression, Expectation-Maximization,
Hot Deck, Predictive Mean Matching), όσο και μεθόδων μηχανικής (Iterative,
KNN, MissForest, MICE) και βαθιάς (LSTM, GRU, MLP, GAIN)
μάθησης. Η αξιολόγηση της απόδοσης κάθε μεθόδου προέκυψε υπολογίζοντας
το κανονικοποιημένο μέσο τετραγωνικό σφάλμα (NRMSE). Τα αποτελέσματα της
πειραματικής διαδικασίας απέδειξαν ότι η μέθοδος GAIN υπερισχύει έναντι των
υπολοίπων και πως η αναπλήρωση των ελλιπών δεδομένων είναι αποτελεσματική
για μικρά ποσοστά ελλείψεων.