Εμφάνιση απλής εγγραφής

Signal-modal temporal seqence labeling using ESN classifier.

Στοιχεία Dublin Core

dc.creatorΚατσουλάκης, Εμμανουήλel
dc.creatorKatsoulakis, Emmanouilen
dc.date.accessioned2016-10-03T11:18:25Z
dc.date.available2016-10-03T11:18:25Z
dc.date.issued2016-09-27
dc.identifier.urihttp://hdl.handle.net/20.500.12688/7892
dc.description.abstractΗ αναγνώριση χειρονομιών είναι ένα από τα πιο σημαντικά κεφάλαια στην διεπαφή ανθρώπου-μηχανής μέσω μαθηματικών αλγορίθμων. Η προέλευση των χειρονομιών μπορεί να προέρχονται είτε από την κίνηση του προσώπου ή του σώματος, και τις περισσότερες περιπτώσεις καταγράφονται μέσω κάμερας. Τα εξαχθέντα από την κάμερα δεδομένα (όπως ο χάρτης βάθους, το σκελετικό μοντέλο) αποτελούν την είσοδο σε υπολογιστικούς αλγόριθμους έτσι ώστε να γίνει η αναγνώριση των χειρονομιών. Η μελέτη αυτή εστιάζει στην χρονική αναγνώριση χειρονομιών (ύπαρξη και κατάταξη) από σκελετικά δεδομένα χρησιμοποιώντας ένα συγκεκριμένο τύπο νευρωνικού δικτύου που ονομάζεται Echo State Network. Σκοπός είναι να καταδείξουμε την πραγματική σειρά εμφάνισης των χειρονομιών που βρίσκονται σε μια χρονοσειρά και εκφράζεται σαν επί τοις εκατό (%) των μη ορθώς αναγνωρισμένων χειρονομιών. Τα δεδομένα για την εκπαίδευση και δοκιμή προέρχονται από την ιστοσελίδα του διαγωνισμού Chalearn Gesture Recognition Challenge. Περιέχουν δεδομένα για 7,820 εκτελέσεις Ιταλικών χειρονομιών που κατηγοριοποιούνται σε 20 κατηγορίες χειρονομιών. Η καταγραφή αυτών των χειρονομιών έγινε από μια κάμερα KinectTM. Ερευνούμε την απόδοση τριών διαφορετικών τύπων ενεργοποιήσεων των εσωτερικών μονάδων (4 υλοποιήσεις): plain_ESN, leaky1_ESN\Leaky_ESN, twi_ESN.el
dc.description.abstractGesture recognition is one of the most significant issues of human-machine interconnection via mathematical algorithms. Gestures can originate from body or face motion and most of the time are recorded by a camera. Extracted cameras’ data (such as depth map, skeletal model) is provided to specific computational algorithms in order to achieve gesture recognition. This study is focused on temporal gesture recognition (detection plus classification) from skeletal data by a specific Reservoir Computing type called Echo State Network. The goal is to indicate the real order of gestures in the sequence expressed as a false gestures recognition percentage. The training and test data have been downloaded from the Chalearn Gesture Recognition Challenge. They contain a large manually labelled database of 7,820 gestures from a lexicon of 20 Italian gesture categories recorded with a KinectTM camera. Recurrent neural networks are a part of Artificial Neural Network architecture that is inspired by brain cyclical connectivity of neurons and uses recurrent function loops to store information. Recurrent neural networks (RNNs) have a great potential for "black box" modeling of nonlinear dynamical systems. Reservoir Computing is a subclass of Recurrent Neural Networks (RNNs). The "echo state" approach is a novel approach of RNNs. Large RNNs are interconnected as "reservoirs" of complex, excitable dynamics. Output units "tap" from this reservoir by linearly combining the desired output signal from the rich variety of excited reservoir signals. This idea leads to training algorithms where only the network-to-output connection weights have to be trained. This can be solved using ridge regression algorithms. Potential applications of ESN are dynamical systems, which were difficult to learn with previous methods. They include (long) periodic sequence generators, multistable switches, frequency measurement devices, controllers for nonlinear plants, long short-term memories, dynamical pattern recognizers, and notably, long-term predictors of chaotic attractors. Today ESNs are widely used in dynamical pattern recognition applications, control, and time series prediction applications (Jaeger, 2001). We investigate the performance of three different types of ESN (4 implementations) internal activation units: plain_ESN, which generates the internal state of an ESN with standard additive-sigmoid, leaky1_ESN\Leaky_ESN, which updates internal state using leaky integrator neuron model, and twi_ESN, which updates internal states using a time warping invariant model. The obtained network performance is measured by error classification rate. Error classification rate for each gesture is also provided. Overall approach achieves 28.53% gesture misclassification rate, providing error rate reduction of 3.12% compared to the best single modal approach presented in Chalearn Gesture Recognition Challenge 2013.en
dc.languageΑγγλικάel
dc.languageEnglishen
dc.publisherΤ.Ε.Ι. Κρήτης, Σχολή Τεχνολογικών Εφαρμογών (Σ.Τ.Εφ), ΔΠΜΣ Προηγμένα Συστήματα Παραγωγής, Αυτοματισμού και Ρομποτικήςel
dc.publisherT.E.I. of Crete, School of Engineering (STEF), IPPS Advanced Manufacturing Systems, Automation and Roboticsen
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.titleΑνάλυση χειρονομιών με τη χρήση οπτικών δεδομένων.el
dc.titleSignal-modal temporal seqence labeling using ESN classifier.en

Στοιχεία healMeta

heal.creatorNameΚατσουλάκης, Εμμανουήλel
heal.creatorNameKatsoulakis, Emmanouilen
heal.publicationDate2016-09-27
heal.identifier.primaryhttp://hdl.handle.net/20.500.12688/7892
heal.abstractΗ αναγνώριση χειρονομιών είναι ένα από τα πιο σημαντικά κεφάλαια στην διεπαφή ανθρώπου-μηχανής μέσω μαθηματικών αλγορίθμων. Η προέλευση των χειρονομιών μπορεί να προέρχονται είτε από την κίνηση του προσώπου ή του σώματος, και τις περισσότερες περιπτώσεις καταγράφονται μέσω κάμερας. Τα εξαχθέντα από την κάμερα δεδομένα (όπως ο χάρτης βάθους, το σκελετικό μοντέλο) αποτελούν την είσοδο σε υπολογιστικούς αλγόριθμους έτσι ώστε να γίνει η αναγνώριση των χειρονομιών. Η μελέτη αυτή εστιάζει στην χρονική αναγνώριση χειρονομιών (ύπαρξη και κατάταξη) από σκελετικά δεδομένα χρησιμοποιώντας ένα συγκεκριμένο τύπο νευρωνικού δικτύου που ονομάζεται Echo State Network. Σκοπός είναι να καταδείξουμε την πραγματική σειρά εμφάνισης των χειρονομιών που βρίσκονται σε μια χρονοσειρά και εκφράζεται σαν επί τοις εκατό (%) των μη ορθώς αναγνωρισμένων χειρονομιών. Τα δεδομένα για την εκπαίδευση και δοκιμή προέρχονται από την ιστοσελίδα του διαγωνισμού Chalearn Gesture Recognition Challenge. Περιέχουν δεδομένα για 7,820 εκτελέσεις Ιταλικών χειρονομιών που κατηγοριοποιούνται σε 20 κατηγορίες χειρονομιών. Η καταγραφή αυτών των χειρονομιών έγινε από μια κάμερα KinectTM. Ερευνούμε την απόδοση τριών διαφορετικών τύπων ενεργοποιήσεων των εσωτερικών μονάδων (4 υλοποιήσεις): plain_ESN, leaky1_ESN\Leaky_ESN, twi_ESN.el
heal.abstractGesture recognition is one of the most significant issues of human-machine interconnection via mathematical algorithms. Gestures can originate from body or face motion and most of the time are recorded by a camera. Extracted cameras’ data (such as depth map, skeletal model) is provided to specific computational algorithms in order to achieve gesture recognition. This study is focused on temporal gesture recognition (detection plus classification) from skeletal data by a specific Reservoir Computing type called Echo State Network. The goal is to indicate the real order of gestures in the sequence expressed as a false gestures recognition percentage. The training and test data have been downloaded from the Chalearn Gesture Recognition Challenge. They contain a large manually labelled database of 7,820 gestures from a lexicon of 20 Italian gesture categories recorded with a KinectTM camera. Recurrent neural networks are a part of Artificial Neural Network architecture that is inspired by brain cyclical connectivity of neurons and uses recurrent function loops to store information. Recurrent neural networks (RNNs) have a great potential for "black box" modeling of nonlinear dynamical systems. Reservoir Computing is a subclass of Recurrent Neural Networks (RNNs). The "echo state" approach is a novel approach of RNNs. Large RNNs are interconnected as "reservoirs" of complex, excitable dynamics. Output units "tap" from this reservoir by linearly combining the desired output signal from the rich variety of excited reservoir signals. This idea leads to training algorithms where only the network-to-output connection weights have to be trained. This can be solved using ridge regression algorithms. Potential applications of ESN are dynamical systems, which were difficult to learn with previous methods. They include (long) periodic sequence generators, multistable switches, frequency measurement devices, controllers for nonlinear plants, long short-term memories, dynamical pattern recognizers, and notably, long-term predictors of chaotic attractors. Today ESNs are widely used in dynamical pattern recognition applications, control, and time series prediction applications (Jaeger, 2001). We investigate the performance of three different types of ESN (4 implementations) internal activation units: plain_ESN, which generates the internal state of an ESN with standard additive-sigmoid, leaky1_ESN\Leaky_ESN, which updates internal state using leaky integrator neuron model, and twi_ESN, which updates internal states using a time warping invariant model. The obtained network performance is measured by error classification rate. Error classification rate for each gesture is also provided. Overall approach achieves 28.53% gesture misclassification rate, providing error rate reduction of 3.12% compared to the best single modal approach presented in Chalearn Gesture Recognition Challenge 2013.en
heal.languageΑγγλικάel
heal.languageEnglishen
heal.academicPublisherΤ.Ε.Ι. Κρήτης, Σχολή Τεχνολογικών Εφαρμογών (Σ.Τ.Εφ), ΔΠΜΣ Προηγμένα Συστήματα Παραγωγής, Αυτοματισμού και Ρομποτικήςel
heal.academicPublisherT.E.I. of Crete, School of Engineering (STEF), IPPS Advanced Manufacturing Systems, Automation and Roboticsen
heal.titleΑνάλυση χειρονομιών με τη χρήση οπτικών δεδομένων.el
heal.titleSignal-modal temporal seqence labeling using ESN classifier.en
heal.typeΜεταπτυχακή Διατριβήel
heal.typeMaster thesisen
heal.keywordαναγνώριση χειρονομιών, νευρωνικό δίκτυο, ταξινόμηση, echo state networkel
heal.keywordgesture recognition, neural network, classification, echo state networken
heal.accessfreeel
heal.advisorNameΚοσμόπουλος, Δημήτριοςel
heal.advisorNameKosmopoulos, Dimitriosen
heal.academicPublisherIDΤ.Ε.Ι. Κρήτηςel
heal.academicPublisherIDT.E.I. of Creteen
heal.fullTextAvailabilitytrueel
tcd.distinguishedfalseel
tcd.surveyfalseel


Αρχεία σε αυτό το τεκμήριο

Thumbnail
Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States