Ανάπτυξη και δημιουργία Νευρωνικού δικτύου βαθιάς μάθησης για την αναγνώριση και ταξινόμηση συναισθημάτων σε φωτογραφίες προσώπων
Abstract
Η αναγνώριση συναισθημάτων μέσω εικόνων προσώπων, είναι ένα σημαντικό ερευνητικό πεδίο με εφαρμογές στην ψυχολογία, την τεχνητή νοημοσύνη, την εκπαίδευση και την ασφάλεια. Στη διπλωματική αυτή εργασία, αναπτύχθηκε και εκπαιδεύτηκαν δύο βαθιά νευρωνικά δίκτυα, συγκεκριμένα συνελικτικά νευρωνικά δίκτυα (CNNs), για την ταξινόμηση συναισθημάτων από εικόνες προσώπων. Εξετάστηκαν επίσης τεχνικές μεταβιβαστικής μάθησης (transfer learning) σε μοντέλα όπως τα ResNeXt101, ResNet152, ConvNeXtBase, EfficientNetV2M και MaxViT.
Τα αποτελέσματα έδειξαν ότι η αρχιτεκτονική MaxViT παρουσίασε την καλύτερη απόδοση, με ακρίβεια 53% και F1-score 50% στο AffectNet, ενώ οι υπόλοιπες αρχιτεκτονικές είχαν παρόμοια επίδοση. Το προτεινόμενο CNN ("Big Model") είχε αποδεκτές επιδόσεις με 47% ακρίβεια, αλλά το απλοποιημένο του μοντέλο ("Reduced Model") παρουσίασε σημαντικά χαμηλότερη απόδοση. Η χρήση ισορροπημένου συνόλου δεδομένων βελτίωσε τα αποτελέσματα στο 59% για τα μοντέλα μεταβιβαστικής μάθησης και 55% στο “Big Model”, βελτιώνοντας παράλληλα την αναγνώριση των λιγότερο συχνών συναισθημάτων.
Συμπερασματικά, η μελέτη αναδεικνύει την πολυπλοκότητα της αναγνώρισης συναισθημάτων από μεμονωμένες εικόνες και τη σημασία της βελτίωσης των μοντέλων με νεότερες αρχιτεκτονικές, όπως οι Transformers, καθώς και με πολυτροπικές προσεγγίσεις που συνδυάζουν φωνή, κείμενο και βίντεο για ακριβέστερη ανάλυση συναισθημάτων.