Αλγόριθμοι ενισχυτικής μάθησης για την επίλυση του προβλήματος δρομολόγησης οχημάτων

Σκαφιδάς, Πιέρρος Χρήστος

View/Open

Διπλωματική εργασία (2.160Mb)

Date

2021-07

Author

Σκαφιδάς, Πιέρρος Χρήστος

Metadata

Show full item record

Abstract

Το Πρόβλημα Δρομολόγησης Οχημάτων παρουσιάστηκε για πρώτη φορά στη δεκαετία του 1950. Μέχρι και σήμερα είναι ένα από τα πιο δύσκολα προβλήματα συνδυαστικής βελτιστοποίησης. Τα τελευταία χρόνια, η τεχνολογική και επιστημονική πρόοδος στον τομέα της Τεχνητής Νοημοσύνης έχει αναπτύξει νέα εργαλεία που μπορούν να χρησιμοποιηθούν για την επίλυση διαφόρων Συνδυαστικών Προβλημάτων Βελτιστοποίησης. Ένα από αυτά τα εργαλεία είναι η Ενισχυτική Μάθηση, όπου ένας πράκτορας, κατά τη διάρκεια της εκπαίδευσης, πρέπει να έρθει σε επαφή με το πρόβλημα για να αναπτύξει μια πολιτική κινήσεων βάσει των ενεργειών και των καταστάσεων που έχει βρεθεί. Αφού οριστεί η πολιτική, ο πράκτορας μπορεί τώρα να επιλέξει μια ενέργεια βάσει αυτής της πολιτικής για την επίλυση του προβλήματος. Σε αυτή τη διπλωματική εργασία, παρουσιάζουμε αλγόριθμους ενισχυτικής μάθησης για την επίλυση του προβλήματος δρομολόγησης οχημάτων. Οι περισσότεροι από αυτούς εκμεταλλεύονται τους μηχανισμούς ενσωμάτωσης γράφων ή κάποιον μηχανισμό προσοχής. Για να βρεθούν ανταγωνιστικά αποτελέσματα, κάθε μοντέλο πρέπει να εκπαιδευτεί για ένα αρκετά μεγάλο χρονικό διάστημα. Ως εκ τούτου, σε αυτή την εργασία, είναι κρίσιμο να συγκρίνουμε όχι μόνο το κόστος της συνολικής διαδρομής ή τους χρόνους εκπαίδευσης και επίλυσης, αλλά και την πρόοδο ολόκληρης της εκπαίδευσης. Στη συνέχεια μπορούμε να μελετήσουμε σε βάθος, πώς το μοντέλο βελτιώνει το κόστος σε κάθε βήμα εκπαίδευσης. Ακόμη, χρησιμοποιούμε έναν αλγόριθμο τοπικής αναζήτησης για να βελτιώσουμε περαιτέρω την αρχική μας λύση. Τέλος, συγκρίνουμε τα αποτελέσματα των αλγόριθμων επίλυσης με ευρέως διαδεδομένους ευρετικούς αλγορίθμους. Τhe Vehicle Routing Problem was first introduced in the 1950s. Yet, it is till this day one of the most challenging combinatorial optimization problems to solve. In recent years, technological and scientific progress in the area of Artificial Intelligence has developed new tools that can be used to solve various Combinatorial Optimization Problems. One of those tools is Reinforcement Learning, where an agent, during training, has to interact with the problem to develop an action policy based on his actions and states he has reached. After the policy has been set, the agent can now choose an action based on that policy to solve the problem. In this thesis exercise, we present various other approaches using Reinforcement Learning that were developed through the years. Most of them take advantage of graph embedding or an attention mechanism layer. In order to receive competitive results, each model has to be trained for a rather large amount of time. Therefore, in this thesis exercise, it is critical that we compare not only the cost of the tour or the times for training and solving but the progress of the whole training process. Then we can study in-depth, how the model improves the cost in each training step. Then, we optimize the initial solution using a local search algorithm. Finally, we compare our results with various widely used heuristics.

URI

https://dspace.uowm.gr/xmlui/handle/123456789/2437

Collections

Διπλωματικές Εργασίες