Εμφάνιση απλής εγγραφής

Study of twitter API and data analysis.

Στοιχεία Dublin Core

dc.creatorΚωνσταντουράκης, Ιωσήφel
dc.creatorKonstantourakis, Iosifen
dc.date.accessioned2023-04-26T06:00:05Z
dc.date.available2023-04-26T06:00:05Z
dc.date.issued2023-04-26
dc.identifier.urihttp://hdl.handle.net/20.500.12688/10547
dc.description.abstractΣτα πλαίσια της επιστήμης του Marketing, η κατανόηση των τάσεων και των απόψεων γύρω από θεματικές, γεγονότα, πρόσωπα και προϊόντα είναι μεγάλης σημασίας, και η συναισθηματική ανάλυση κειμένων αποτελεί ένα πολύ χρήσιμο εργαλείο για αυτόν τον σκοπό. Η επικρατέστερη μέθοδος τα τελευταία χρόνια ήταν η χρησιμοποίηση λεξικών συναισθηματικά προ-αξιολογημένων όρων. Όταν τα λεξικά αυτά είναι διαθέσιμα και επαρκώς αναλυτικά (όπως για παράδειγμα στην αγγλική γλώσσα), τα αποτελέσματά τους μπορούν να είναι εξαιρετικά. Όταν όμως δεν είναι όσο εκτεταμένα/εξειδικευμένα χρειάζεται ή σε κάποιες γλώσσες (όπως η ελληνική) μπορεί να είναι πολύ περιορισμένα έως και ανύπαρκτα, είναι αναγκαία μια εναλλακτική προσέγγιση που θα μπορεί να αποδίδει ικανοποιητικά αποτελέσματα συναισθηματικής ανάλυσης έχοντας διαθέσιμα μόνο πρωτογενή, μη προ-αξιολογημένα κείμενα. H παρούσα διπλωματική εργασία, αναφορικά με το κομμάτι της ανάλυσης δεδομένων, εξετάζει την εφικτότητα και κάνει μια πρώτη διερεύνηση της αποτελεσματικότητας της χρήσης σύγχρονων μοντέλων μηχανικής μάθησης (machine learning), προεκπαιδευμένων σε εργασίες συμπερασμάτων φυσικής γλώσσας (Natural Language Inference - NLI), για την ανάλυση συναισθήματος συγκεκριμένα σε ελληνικά κείμενα, μέσω τεχνικών ταξινόμησης μηδενικής βολής (zero-shot classification). Για τον σκοπό αυτό, το αρχικό τμήμα της εργασίας ασχολείται με το κοινωνικό δίκτυο Twitter και τις προγραμματιστικές διεπαφές του για την συλλογή των κειμένων προς αξιολόγηση, και κατόπιν με τεχνικές προεπεξεργασίας τους. Μια πρώτη απόπειρα βελτίωσης των δυνατοτήτων κατανόησης των χρησιμοποιούμενων μοντέλων, μέσω εμπλουτισμού των λεξικών τους με λέξεις από τα συλλεγμένα κείμενα, αποδεικνύεται αναποτελεσματική όταν δεν ακολουθείται από επανεκπαίδευσή τους - διαδικασία “ακριβή” από υπολογιστικής άποψης, που ξεφεύγει από τους σκοπούς της εργασίας αυτής. Χρησιμοποιώντας λοιπόν χωρίς μεταβολές ελεύθερα διαθέσιμα προεκπαιδευμένα πολυγλωσσικά μοντέλα NLI (στην περίπτωσή μας το DeBERTa) πάνω σε ελληνικά tweets, διαπιστώνεται ότι τα αποτελέσματά τους για σκοπούς ανάλυσης συναισθήματος σε πρωτογενή κείμενα, είναι πολύ ενθαρρυντικά. Η διπλωματική εργασία κλείνει προτείνοντας μια επιπλέον μέθοδο αξιολόγησης των αποτελεσμάτων, καθώς και πεδία πιθανής βελτίωσης της μεθόδου προς τους επόμενους ερευνητές.el
dc.description.abstractIn the context of Marketing science, understanding trends and opinions regarding topics, events, people and products is of great importance, and sentiment analysis of texts is a very useful tool towards this goal. The predominant method of such analysis in recent years has been the use of dictionaries of emotionally pre-evaluated terms. Whenever these dictionaries are available and sufficiently detailed (as for example in the English language), their results can be excellent. However, when they are not as extensive/specialized as needed or in some languages (such as Greek) are very limited or even non-existent, an alternative approach is necessary that will be able to yield satisfactory emotional analysis results, making only use of raw, non-evaluated texts. This thesis, regarding the part of data analysis, examines the feasibility and makes an initial investigation of the effectiveness of the use of modern machine learning models, pre-trained in Natural Language Inference (NLI) tasks, for sentiment analysis specifically in Greek texts, through zero-shot classification techniques. For this purpose, the initial part of the work deals with the Twitter social network and its programming interfaces (APIs) for the collection of the texts to be evaluated, and then with their pre-processing techniques. A first attempt to improve the understanding capabilities of the models used, by expanding their dictionaries with words from collected texts, proves to be ineffective when not followed by model retraining - a computationally expensive process, which is beyond the scope of this work. Using unchanged freely available pre-trained multilingual NLI models (in our case DeBERTa) on Greek tweets, it is found that their results regarding sentiment analysis purposes on raw texts, are very encouraging. The thesis concludes by proposing an additional method of results evaluation, as well as fields of possible improvement of the method for the future researchers.en
dc.languageΕλληνικάel
dc.languageGreeken
dc.publisherΕΛ.ΜΕ.ΠΑ., ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ (ΣΕΔΟ), Τμήμα Διοικητικής Επιστήμης και Τεχνολογίαςel
dc.publisherΗ.Μ.U, School of Management and Economic Sciences (SMES), Management Science and Technology Dept.en
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.titleΜελέτη twitter API και ανάλυση δεδομένων.el
dc.titleStudy of twitter API and data analysis.en

Στοιχεία healMeta

heal.creatorNameΚωνσταντουράκης, Ιωσήφel
heal.creatorNameKonstantourakis, Iosifen
heal.publicationDate2023-04-26
heal.identifier.primaryhttp://hdl.handle.net/20.500.12688/10547
heal.abstractΣτα πλαίσια της επιστήμης του Marketing, η κατανόηση των τάσεων και των απόψεων γύρω από θεματικές, γεγονότα, πρόσωπα και προϊόντα είναι μεγάλης σημασίας, και η συναισθηματική ανάλυση κειμένων αποτελεί ένα πολύ χρήσιμο εργαλείο για αυτόν τον σκοπό. Η επικρατέστερη μέθοδος τα τελευταία χρόνια ήταν η χρησιμοποίηση λεξικών συναισθηματικά προ-αξιολογημένων όρων. Όταν τα λεξικά αυτά είναι διαθέσιμα και επαρκώς αναλυτικά (όπως για παράδειγμα στην αγγλική γλώσσα), τα αποτελέσματά τους μπορούν να είναι εξαιρετικά. Όταν όμως δεν είναι όσο εκτεταμένα/εξειδικευμένα χρειάζεται ή σε κάποιες γλώσσες (όπως η ελληνική) μπορεί να είναι πολύ περιορισμένα έως και ανύπαρκτα, είναι αναγκαία μια εναλλακτική προσέγγιση που θα μπορεί να αποδίδει ικανοποιητικά αποτελέσματα συναισθηματικής ανάλυσης έχοντας διαθέσιμα μόνο πρωτογενή, μη προ-αξιολογημένα κείμενα. H παρούσα διπλωματική εργασία, αναφορικά με το κομμάτι της ανάλυσης δεδομένων, εξετάζει την εφικτότητα και κάνει μια πρώτη διερεύνηση της αποτελεσματικότητας της χρήσης σύγχρονων μοντέλων μηχανικής μάθησης (machine learning), προεκπαιδευμένων σε εργασίες συμπερασμάτων φυσικής γλώσσας (Natural Language Inference - NLI), για την ανάλυση συναισθήματος συγκεκριμένα σε ελληνικά κείμενα, μέσω τεχνικών ταξινόμησης μηδενικής βολής (zero-shot classification). Για τον σκοπό αυτό, το αρχικό τμήμα της εργασίας ασχολείται με το κοινωνικό δίκτυο Twitter και τις προγραμματιστικές διεπαφές του για την συλλογή των κειμένων προς αξιολόγηση, και κατόπιν με τεχνικές προεπεξεργασίας τους. Μια πρώτη απόπειρα βελτίωσης των δυνατοτήτων κατανόησης των χρησιμοποιούμενων μοντέλων, μέσω εμπλουτισμού των λεξικών τους με λέξεις από τα συλλεγμένα κείμενα, αποδεικνύεται αναποτελεσματική όταν δεν ακολουθείται από επανεκπαίδευσή τους - διαδικασία “ακριβή” από υπολογιστικής άποψης, που ξεφεύγει από τους σκοπούς της εργασίας αυτής. Χρησιμοποιώντας λοιπόν χωρίς μεταβολές ελεύθερα διαθέσιμα προεκπαιδευμένα πολυγλωσσικά μοντέλα NLI (στην περίπτωσή μας το DeBERTa) πάνω σε ελληνικά tweets, διαπιστώνεται ότι τα αποτελέσματά τους για σκοπούς ανάλυσης συναισθήματος σε πρωτογενή κείμενα, είναι πολύ ενθαρρυντικά. Η διπλωματική εργασία κλείνει προτείνοντας μια επιπλέον μέθοδο αξιολόγησης των αποτελεσμάτων, καθώς και πεδία πιθανής βελτίωσης της μεθόδου προς τους επόμενους ερευνητές.el
heal.abstractIn the context of Marketing science, understanding trends and opinions regarding topics, events, people and products is of great importance, and sentiment analysis of texts is a very useful tool towards this goal. The predominant method of such analysis in recent years has been the use of dictionaries of emotionally pre-evaluated terms. Whenever these dictionaries are available and sufficiently detailed (as for example in the English language), their results can be excellent. However, when they are not as extensive/specialized as needed or in some languages (such as Greek) are very limited or even non-existent, an alternative approach is necessary that will be able to yield satisfactory emotional analysis results, making only use of raw, non-evaluated texts. This thesis, regarding the part of data analysis, examines the feasibility and makes an initial investigation of the effectiveness of the use of modern machine learning models, pre-trained in Natural Language Inference (NLI) tasks, for sentiment analysis specifically in Greek texts, through zero-shot classification techniques. For this purpose, the initial part of the work deals with the Twitter social network and its programming interfaces (APIs) for the collection of the texts to be evaluated, and then with their pre-processing techniques. A first attempt to improve the understanding capabilities of the models used, by expanding their dictionaries with words from collected texts, proves to be ineffective when not followed by model retraining - a computationally expensive process, which is beyond the scope of this work. Using unchanged freely available pre-trained multilingual NLI models (in our case DeBERTa) on Greek tweets, it is found that their results regarding sentiment analysis purposes on raw texts, are very encouraging. The thesis concludes by proposing an additional method of results evaluation, as well as fields of possible improvement of the method for the future researchers.en
heal.languageΕλληνικάel
heal.languageGreeken
heal.academicPublisherΕΛ.ΜΕ.ΠΑ., ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ (ΣΕΔΟ), Τμήμα Διοικητικής Επιστήμης και Τεχνολογίαςel
heal.academicPublisherΗ.Μ.U, School of Management and Economic Sciences (SMES), Management Science and Technology Dept.en
heal.titleΜελέτη twitter API και ανάλυση δεδομένων.el
heal.titleStudy of twitter API and data analysis.en
heal.typeΜεταπτυχιακή Διατριβήel
heal.typeMaster thesisen
heal.keywordδιεπαφή προγραμματισμού εφαρμογών, συναισθηματική ανάλυση, συμπεράσματα φυσικής γλώσσας, μετασχηματιστές, αναγνώριση γλωσσικών μονάδων, ταξινόμηση μηδενικής βολήςel
heal.keywordapplication programming interface, sentiment analysis, natural Language inference, transformers, tokenization, zero-shot classificationen
heal.advisorNameΜαστοράκης, Γεώργιοςel
heal.advisorNameMastorakis, Georgiosen
heal.advisorID.emailgmastorakis@hmu.gr
heal.academicPublisherIDΕΛ.ΜΕ.ΠΑ. Ελληνικό Μεσογειακό Πανεπιστήμιοel
heal.academicPublisherIDΗ.Μ.U Hellenic Mediterranean University‎en


Αρχεία σε αυτό το τεκμήριο

Thumbnail
Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States