Έλεγχος χρονοσειρών της βάσης δεδομένων του ζωντανού εργαστήριου του Πανεπιστήμιου Δυτικής Μακεδονίας
Abstract
Η διπλωματική εργασία έχει ως σκοπό την αξιολόγηση της ποιότητας των δεδομένων χρονοσειρών του Ζωντανού εργαστηρίου του Πανεπιστημίου Δυτικής Μακεδονίας με τη χρήση της Python. Πρωταρχικός στόχος είναι να διασφαλιστεί η αξιοπιστία και η ακεραιότητα των δεδομένων που συλλέγονται από διαφορετικές πηγές. Το πλαίσιο χρησιμοποιεί διάφορες βιβλιοθήκες Python για την εκτέλεση μιας σειράς ελέγχων ποιότητας δεδομένων, που περιλαμβάνουν την ανίχνευση ελλιπών τιμών, τον εντοπισμό ακραίων τιμών, την εξομάλυνση δεδομένων, την οπτικοποίηση και την ανίχνευση ανωμαλιών.
Το πλαίσιο ξεκινά με τη φόρτωση δεδομένων χρονοσειρών από ένα αρχείο Excel σε ένα πλαίσιο δεδομένων Pandas DataFrame. Στη συνέχεια, προχωρά στον εντοπισμό και την ποσοτικοποίηση των ελλιπών τιμών, τον εντοπισμό διπλών χρονοσφραγίδων και την επικύρωση της χρονολογικής σειράς των χρονοσφραγίδων. Ο κώδικας περιλαμβάνει επίσης ανίχνευση ακραίων τιμών με βάση το Z-Score και επικύρωση εύρους δεδομένων για μετρικές στήλες. Η εξομάλυνση των δεδομένων επιτυγχάνεται μέσω του φίλτρου Savitzky-Golay και το πλαίσιο προσφέρει οπτικοποιήσεις για κάθε μετρική στήλη. Επιπλέον, εισάγει έναν μηχανισμό ανίχνευσης ανωμαλιών με βάση το προφίλ του πίνακα χρησιμοποιώντας το Stumpy.
Το πλαίσιο είναι ευπροσάρμοστο και προσαρμόζεται σε προσαρμοσμένους ελέγχους, επιτρέποντας τη συμπερίληψη κανόνων για συγκεκριμένους τομείς και πρόσθετων ελέγχων προσαρμοσμένων σε συγκεκριμένες απαιτήσεις. Εν κατακλείδι, η διατριβή παρέχει μια σύνοψη της ποιότητας των δεδομένων, συμπεριλαμβανομένου του αριθμού των γραμμών και των στηλών στο σύνολο δεδομένων, προσφέροντας μια σαφή επισκόπηση της ακεραιότητας των δεδομένων.
---------------------------------------------------------------------------------------------------------------------------------------------------------------
This thesis aims at assessing the quality of time-series data of the Living Lab of the University of Western Macedonia using Python. The primary objective is to ensure the reliability and integrity of data collected from diverse sources. The framework utilizes various Python libraries to execute a range of data quality checks, encompassing missing value detection, outlier identification, data smoothing, visualization, and anomaly detection. The framework begins with loading time-series data from an Excel file into a Pandas DataFrame. It then proceeds to identify and quantify missing values, detect duplicate timestamps, and validate the chronological order of timestamps. The code also includes Z-Score-based outlier detection and data range validation for metric columns. Data smoothing is achieved through the Savitzky-Golay filter, and the framework offers visualizations for each metric column. Additionally, it introduces an anomaly detection mechanism based on the matrix profile using Stumpy.The framework is adaptable and accommodates custom checks, allowing for the inclusion of domain-specific rules and additional checks tailored to specific requirements. In conclusion, the thesis provides a data quality summary, including the count of rows and columns in the dataset, offering a clear overview of data integrity.