Μελέτη και ανάπτυξη μεθόδων ανάλυσης πολυμεσικού περιεχομένου από κινηματογραφικές ταινίες με στόχο την βελτίωση των μεθόδων σύστασης ταινιών
Abstract
Η παρούσα εργασία ασχολείται με την μελέτη μεθόδων ανάλυσης περιεχομένου ταινιών, με σκοπό
την πρόβλεψη ανθρώπινης προτίμησης και μετέπειτα σύστασης ταινιών. Συγκεκριμένα, δεδομένου των
πληροφοριών που παρέχει μία ταινία, εξάγονται χαρακτηριστικά που εκφράζουν το περιεχόμενο της
ταινίας, με στόχο την παραγωγή πληροφορίας σχετικά με την πιθανή ομοιότητα της με άλλες ταινίες.
Για τις ανάγκες τις έρευνας, η εργασία χωρίστηκε σε τρία ξεχωριστά τμήματα: ανίχνευση πλάνων από
ταινίες, συλλογή δεδομένων, εφαρμογή αλγορίθμων βαθιάς μάθησης. Επεξηγηματικά, για την εκπαίδευση μοντέλων βαθιάς μάθησης απαιτείται η είσοδος ποιοτικών συνόλων δεδομένων. Για αυτό τον λόγο,
στην εργασία μελετήθηκαν αλγόριθμοι ανίχνευσης πλάνων από κινηματογραφικές ταινίες, με σκοπό την
δημιουργία ενός ολοκληρωμένου συνόλου δεδομένου, που αποτελείται από ταινίες.
Αρχικά υλοποιήθηκαν και μελετήθηκαν τρεις διαφορετικοί αλγόριθμοι ανίχνευσης πλάνων: Sum of
absolute Difference, Edge Change Ratio, Histogram Differences. Πραγματοποιήθηκε σύγκριση των
τριών μεθόδων, έτσι ώστε να βρεθεί η πιο αποτελεσματική και αποδοτική για ανίχνευση και διαχωρισμό
πλάνων, μέθοδος.
Μετά την επιλογή του καταλληλότερου αλγορίθμου ανίχνευσης πλάνων, ελέγχθηκαν όλα τα αποτελέσματα που συλλέχθηκαν. Αφού μελετήθηκαν βασικά κινηματογραφικά χαρακτηριστικά ανάλυσης
μίας ταινίας, αποφασίστηκε το περιεχόμενο και η κατηγοριοποίηση του συνόλου δεδομένων. Για την
σωστή δημιουργία του συνόλου δεδομένων, επιλέχθηκαν συγκεκριμένα πλάνα που ήταν σύμφωνα με τον
κινηματογραφικό προσανατολισμό του γενικού συνόλου δεδομένων.
΄Οσον αφορά το τελευταίο στάδιο της διπλωματικής εργασίας, επιλέχθηκαν κατάλληλοι αλγόριθμοι
βαθιάς μάθησης προκειμένου να πραγματοποιηθεί σωστή ανάλυση αρχείων βίντεο. Μετά το πέρας δημιουργίας ενός ολοκληρωμένου συνόλου δεδομένων, εκπαιδεύτηκαν μοντέλα, με στόχο να παράγουμε νέα
γνώση, να εξάγουμε νέα συμπεράσματα και να προβλέψουμε ανθρώπινες κινηματογραφικές προτιμήσεις.
Τέλος παρατέθηκαν ορισμένες προτάσεις για περαιτέρω μελέτη της εργασίας, που μπορούν να βοηθήσουν στην ερευνητική επέκταση της εργασίας.
The present study revolves around the investigation of various methods applicable to the analysis
of the visual content from movies; the ultimate purpose is two-fold, encompassing the prediction of
the element of human preference, and subsequently, the prediction of movie content, providing an
initial bundle of information. Given the multitude of information held within a movie, it is possible
to extract the specific tropes a particular movie has; with these in hand, it is possible to march on
and correlate said movie with other movies, whose information content follows similar patterns.
For the intents and purposes of the investigation as envisioned, the study has been segmented in
three separate sections; detection of movie shots, data collection, and application of deep learning
algorithms. Accordingly, training of deep learning models entails the input of qualitative sets of
data. To this end, for the present study shot detection algorithms were comprehensively evaluated
for cinematography, striving to create an integrated set of data comprising of movies.
First step towards the aim of the study was the implementation and concomitant validation of
three distinct shot detection algorithms, namely Sum of Absolute Difference, Edge Change Ratio,
and Histogram Differences. The three algorithms were compared against each other so that the most
efficient and effective method for identifying and discerning shots could be safely deduced.
The election of the most appropriate algorithm, enabled expatiation of all accumulated results for
verification of the algorithm. This was followed by the meticulous assessment on fundamentals of
movie analysis, from which the content, as well as the categorisation, of the data set could be determined. For the appropriate data generation, specific shots were selected, that were cinematographywise in accordance with the exhibited trend of the global data set.
With respect to the final stage of this master thesis, the most suitable deep learning algorithms
were chosen for the purpose of conducting true analysis of video files. Past the creation of an integral
data set, models were trained, giving rise to new knowledge, hence permitting additional conclusions
to be within reach, and last but not least to make prediction of human movie preferences accessible.
In closing, some final, useful, recommendations are adduced, that are expected to further the
present thesis and its research scope to a more advanced level.