Σύγκριση μεθόδων μηχανικής μάθησης σε δεδομένα που προέρχονται από αισθητήρες
Abstract
Η συλλογή δεδομένων από αισθητήρες και η εξαγωγή χρήσιμων πληροφοριών
από ακατέργαστα δεδομένα απαιτούν συγκεκριμένη διαχείριση στον τομέα της
επιστήμης των υπολογιστών. Στην παρούσα διπλωματική, πραγματοποιείται η μοντελοποίηση με τη μέθοδο της παλινδρόμησης των δεδομένων θερμοκρασίας που
προέρχονται από αισθητήρες τοποθετημένους σε οκτώ διαφορετικούς χώρους μίας
κατοικίας στην Λευκόβρυση Κοζάνης, με σκοπό την ακριβή πρόβλεψη της θερμοκρασίας κάθε χώρου. Έπειτα από τη συλλογή των ακατέργαστων δεδομένων από
το δίκτυο αισθητήρων που έχει τοποθετηθεί, ακολουθεί η επεξεργασία και η ανάλυσή τους. Χρησιμοποιούνται επτά αλγόριθμοι εποπτευόμενης μηχανικής μάθησης
και ένα στατιστικό μοντέλο για την πρόβλεψη θερμοκρασίας σε κάθε χώρο ξεχωριστά. Στη συνέχεια, γίνεται σύγκριση της ακρίβειας κάθε μοντέλου, με στόχο
την εξέταση της αποτελεσματικότητάς τους. Για περαιτέρω βελτίωση της ακρίβειας
των μοντέλων, χρησιμοποιούνται επιπλέον ιστορικά δεδομένα θερμοκρασίας, πίεσης και υγρασίας. Τα αποτελέσματα του πειράματος δείχνουν ότι οι αλγόριθμοι
των δέντρων απόφασης και τυχαίων δασών επιτυγχάνουν την υψηλότερη ακρίβεια
πρόβλεψης, ενώ τα συμπληρωματικά ιστορικά δεδομένα βελτιώνουν την απόδοση
των αλγοριθμικών μοντέλων.
Data collection via sensors and the extraction of useful knowledge from raw data
demand specific handling in computer science. This thesis conducts the modelling of
temperature data derived from sensors placed in eight different rooms of a residence
located in Lefkovrysi, Kozani, aiming to accurately predict the temperature in each
room. The collection of the raw data from the sensor infrastructure is followed by
data processing and analysis. Seven supervised learning algorithms along with a
statistical model are utilized for the prediction of temperature in each room separately.
Subsequently, a comparison between the level of accuracy of each model is drawn
in order to examine the efficiency of the algorithms. For further improvement of the
models’ accuracy, additional historical data of temperature, atmospheric pressure
and humidity were used. The experimental results show that the Decision Tree
and Random Forest algorithms achieve the highest prediction accuracy, whilst the
supplementary historical data enhance the models’ performance.