Αλγόριθμοι ενισχυτικής μάθησης για την επίλυση του προβλήματος δρομολόγησης οχημάτων
Abstract
Το Πρόβλημα Δρομολόγησης Οχημάτων παρουσιάστηκε για πρώτη φορά στη δεκαετία του 1950. Μέχρι και σήμερα είναι ένα από τα πιο δύσκολα προβλήματα
συνδυαστικής βελτιστοποίησης. Τα τελευταία χρόνια, η τεχνολογική και επιστημονική πρόοδος στον τομέα της Τεχνητής Νοημοσύνης έχει αναπτύξει νέα εργαλεία
που μπορούν να χρησιμοποιηθούν για την επίλυση διαφόρων Συνδυαστικών Προβλημάτων Βελτιστοποίησης. Ένα από αυτά τα εργαλεία είναι η Ενισχυτική Μάθηση,
όπου ένας πράκτορας, κατά τη διάρκεια της εκπαίδευσης, πρέπει να έρθει σε επαφή
με το πρόβλημα για να αναπτύξει μια πολιτική κινήσεων βάσει των ενεργειών και
των καταστάσεων που έχει βρεθεί. Αφού οριστεί η πολιτική, ο πράκτορας μπορεί τώρα να επιλέξει μια ενέργεια βάσει αυτής της πολιτικής για την επίλυση του
προβλήματος.
Σε αυτή τη διπλωματική εργασία, παρουσιάζουμε αλγόριθμους ενισχυτικής μάθησης για την επίλυση του προβλήματος δρομολόγησης οχημάτων. Οι περισσότεροι
από αυτούς εκμεταλλεύονται τους μηχανισμούς ενσωμάτωσης γράφων ή κάποιον
μηχανισμό προσοχής. Για να βρεθούν ανταγωνιστικά αποτελέσματα, κάθε μοντέλο
πρέπει να εκπαιδευτεί για ένα αρκετά μεγάλο χρονικό διάστημα. Ως εκ τούτου, σε
αυτή την εργασία, είναι κρίσιμο να συγκρίνουμε όχι μόνο το κόστος της συνολικής
διαδρομής ή τους χρόνους εκπαίδευσης και επίλυσης, αλλά και την πρόοδο ολόκληρης της εκπαίδευσης. Στη συνέχεια μπορούμε να μελετήσουμε σε βάθος, πώς το
μοντέλο βελτιώνει το κόστος σε κάθε βήμα εκπαίδευσης. Ακόμη, χρησιμοποιούμε
έναν αλγόριθμο τοπικής αναζήτησης για να βελτιώσουμε περαιτέρω την αρχική μας
λύση. Τέλος, συγκρίνουμε τα αποτελέσματα των αλγόριθμων επίλυσης με ευρέως
διαδεδομένους ευρετικούς αλγορίθμους.
Τhe Vehicle Routing Problem was first introduced in the 1950s. Yet, it is till this day
one of the most challenging combinatorial optimization problems to solve. In recent
years, technological and scientific progress in the area of Artificial Intelligence has
developed new tools that can be used to solve various Combinatorial Optimization
Problems. One of those tools is Reinforcement Learning, where an agent, during
training, has to interact with the problem to develop an action policy based on his
actions and states he has reached. After the policy has been set, the agent can now
choose an action based on that policy to solve the problem.
In this thesis exercise, we present various other approaches using Reinforcement
Learning that were developed through the years. Most of them take advantage of
graph embedding or an attention mechanism layer. In order to receive competitive
results, each model has to be trained for a rather large amount of time. Therefore, in
this thesis exercise, it is critical that we compare not only the cost of the tour or the
times for training and solving but the progress of the whole training process. Then
we can study in-depth, how the model improves the cost in each training step. Then,
we optimize the initial solution using a local search algorithm. Finally, we compare
our results with various widely used heuristics.