Μελέτη twitter API και ανάλυση δεδομένων.

Κωνσταντουράκης, Ιωσήφ; Konstantourakis, Iosif

Study of twitter API and data analysis.

Στοιχεία Dublin Core

dc.creator	Κωνσταντουράκης, Ιωσήφ	el
dc.creator	Konstantourakis, Iosif	en
dc.date.accessioned	2023-04-26T06:00:05Z
dc.date.available	2023-04-26T06:00:05Z
dc.date.issued	2023-04-26
dc.identifier.uri	http://hdl.handle.net/20.500.12688/10547
dc.description.abstract	Στα πλαίσια της επιστήμης του Marketing, η κατανόηση των τάσεων και των απόψεων γύρω από θεματικές, γεγονότα, πρόσωπα και προϊόντα είναι μεγάλης σημασίας, και η συναισθηματική ανάλυση κειμένων αποτελεί ένα πολύ χρήσιμο εργαλείο για αυτόν τον σκοπό. Η επικρατέστερη μέθοδος τα τελευταία χρόνια ήταν η χρησιμοποίηση λεξικών συναισθηματικά προ-αξιολογημένων όρων. Όταν τα λεξικά αυτά είναι διαθέσιμα και επαρκώς αναλυτικά (όπως για παράδειγμα στην αγγλική γλώσσα), τα αποτελέσματά τους μπορούν να είναι εξαιρετικά. Όταν όμως δεν είναι όσο εκτεταμένα/εξειδικευμένα χρειάζεται ή σε κάποιες γλώσσες (όπως η ελληνική) μπορεί να είναι πολύ περιορισμένα έως και ανύπαρκτα, είναι αναγκαία μια εναλλακτική προσέγγιση που θα μπορεί να αποδίδει ικανοποιητικά αποτελέσματα συναισθηματικής ανάλυσης έχοντας διαθέσιμα μόνο πρωτογενή, μη προ-αξιολογημένα κείμενα. H παρούσα διπλωματική εργασία, αναφορικά με το κομμάτι της ανάλυσης δεδομένων, εξετάζει την εφικτότητα και κάνει μια πρώτη διερεύνηση της αποτελεσματικότητας της χρήσης σύγχρονων μοντέλων μηχανικής μάθησης (machine learning), προεκπαιδευμένων σε εργασίες συμπερασμάτων φυσικής γλώσσας (Natural Language Inference - NLI), για την ανάλυση συναισθήματος συγκεκριμένα σε ελληνικά κείμενα, μέσω τεχνικών ταξινόμησης μηδενικής βολής (zero-shot classification). Για τον σκοπό αυτό, το αρχικό τμήμα της εργασίας ασχολείται με το κοινωνικό δίκτυο Twitter και τις προγραμματιστικές διεπαφές του για την συλλογή των κειμένων προς αξιολόγηση, και κατόπιν με τεχνικές προεπεξεργασίας τους. Μια πρώτη απόπειρα βελτίωσης των δυνατοτήτων κατανόησης των χρησιμοποιούμενων μοντέλων, μέσω εμπλουτισμού των λεξικών τους με λέξεις από τα συλλεγμένα κείμενα, αποδεικνύεται αναποτελεσματική όταν δεν ακολουθείται από επανεκπαίδευσή τους - διαδικασία “ακριβή” από υπολογιστικής άποψης, που ξεφεύγει από τους σκοπούς της εργασίας αυτής. Χρησιμοποιώντας λοιπόν χωρίς μεταβολές ελεύθερα διαθέσιμα προεκπαιδευμένα πολυγλωσσικά μοντέλα NLI (στην περίπτωσή μας το DeBERTa) πάνω σε ελληνικά tweets, διαπιστώνεται ότι τα αποτελέσματά τους για σκοπούς ανάλυσης συναισθήματος σε πρωτογενή κείμενα, είναι πολύ ενθαρρυντικά. Η διπλωματική εργασία κλείνει προτείνοντας μια επιπλέον μέθοδο αξιολόγησης των αποτελεσμάτων, καθώς και πεδία πιθανής βελτίωσης της μεθόδου προς τους επόμενους ερευνητές.	el
dc.description.abstract	In the context of Marketing science, understanding trends and opinions regarding topics, events, people and products is of great importance, and sentiment analysis of texts is a very useful tool towards this goal. The predominant method of such analysis in recent years has been the use of dictionaries of emotionally pre-evaluated terms. Whenever these dictionaries are available and sufficiently detailed (as for example in the English language), their results can be excellent. However, when they are not as extensive/specialized as needed or in some languages (such as Greek) are very limited or even non-existent, an alternative approach is necessary that will be able to yield satisfactory emotional analysis results, making only use of raw, non-evaluated texts. This thesis, regarding the part of data analysis, examines the feasibility and makes an initial investigation of the effectiveness of the use of modern machine learning models, pre-trained in Natural Language Inference (NLI) tasks, for sentiment analysis specifically in Greek texts, through zero-shot classification techniques. For this purpose, the initial part of the work deals with the Twitter social network and its programming interfaces (APIs) for the collection of the texts to be evaluated, and then with their pre-processing techniques. A first attempt to improve the understanding capabilities of the models used, by expanding their dictionaries with words from collected texts, proves to be ineffective when not followed by model retraining - a computationally expensive process, which is beyond the scope of this work. Using unchanged freely available pre-trained multilingual NLI models (in our case DeBERTa) on Greek tweets, it is found that their results regarding sentiment analysis purposes on raw texts, are very encouraging. The thesis concludes by proposing an additional method of results evaluation, as well as fields of possible improvement of the method for the future researchers.	en
dc.language	Ελληνικά	el
dc.language	Greek	en
dc.publisher	ΕΛ.ΜΕ.ΠΑ., ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ (ΣΕΔΟ), Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας	el
dc.publisher	Η.Μ.U, School of Management and Economic Sciences (SMES), Management Science and Technology Dept.	en
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
dc.title	Μελέτη twitter API και ανάλυση δεδομένων.	el
dc.title	Study of twitter API and data analysis.	en

Στοιχεία healMeta

heal.creatorName	Κωνσταντουράκης, Ιωσήφ	el
heal.creatorName	Konstantourakis, Iosif	en
heal.publicationDate	2023-04-26
heal.identifier.primary	http://hdl.handle.net/20.500.12688/10547
heal.abstract	Στα πλαίσια της επιστήμης του Marketing, η κατανόηση των τάσεων και των απόψεων γύρω από θεματικές, γεγονότα, πρόσωπα και προϊόντα είναι μεγάλης σημασίας, και η συναισθηματική ανάλυση κειμένων αποτελεί ένα πολύ χρήσιμο εργαλείο για αυτόν τον σκοπό. Η επικρατέστερη μέθοδος τα τελευταία χρόνια ήταν η χρησιμοποίηση λεξικών συναισθηματικά προ-αξιολογημένων όρων. Όταν τα λεξικά αυτά είναι διαθέσιμα και επαρκώς αναλυτικά (όπως για παράδειγμα στην αγγλική γλώσσα), τα αποτελέσματά τους μπορούν να είναι εξαιρετικά. Όταν όμως δεν είναι όσο εκτεταμένα/εξειδικευμένα χρειάζεται ή σε κάποιες γλώσσες (όπως η ελληνική) μπορεί να είναι πολύ περιορισμένα έως και ανύπαρκτα, είναι αναγκαία μια εναλλακτική προσέγγιση που θα μπορεί να αποδίδει ικανοποιητικά αποτελέσματα συναισθηματικής ανάλυσης έχοντας διαθέσιμα μόνο πρωτογενή, μη προ-αξιολογημένα κείμενα. H παρούσα διπλωματική εργασία, αναφορικά με το κομμάτι της ανάλυσης δεδομένων, εξετάζει την εφικτότητα και κάνει μια πρώτη διερεύνηση της αποτελεσματικότητας της χρήσης σύγχρονων μοντέλων μηχανικής μάθησης (machine learning), προεκπαιδευμένων σε εργασίες συμπερασμάτων φυσικής γλώσσας (Natural Language Inference - NLI), για την ανάλυση συναισθήματος συγκεκριμένα σε ελληνικά κείμενα, μέσω τεχνικών ταξινόμησης μηδενικής βολής (zero-shot classification). Για τον σκοπό αυτό, το αρχικό τμήμα της εργασίας ασχολείται με το κοινωνικό δίκτυο Twitter και τις προγραμματιστικές διεπαφές του για την συλλογή των κειμένων προς αξιολόγηση, και κατόπιν με τεχνικές προεπεξεργασίας τους. Μια πρώτη απόπειρα βελτίωσης των δυνατοτήτων κατανόησης των χρησιμοποιούμενων μοντέλων, μέσω εμπλουτισμού των λεξικών τους με λέξεις από τα συλλεγμένα κείμενα, αποδεικνύεται αναποτελεσματική όταν δεν ακολουθείται από επανεκπαίδευσή τους - διαδικασία “ακριβή” από υπολογιστικής άποψης, που ξεφεύγει από τους σκοπούς της εργασίας αυτής. Χρησιμοποιώντας λοιπόν χωρίς μεταβολές ελεύθερα διαθέσιμα προεκπαιδευμένα πολυγλωσσικά μοντέλα NLI (στην περίπτωσή μας το DeBERTa) πάνω σε ελληνικά tweets, διαπιστώνεται ότι τα αποτελέσματά τους για σκοπούς ανάλυσης συναισθήματος σε πρωτογενή κείμενα, είναι πολύ ενθαρρυντικά. Η διπλωματική εργασία κλείνει προτείνοντας μια επιπλέον μέθοδο αξιολόγησης των αποτελεσμάτων, καθώς και πεδία πιθανής βελτίωσης της μεθόδου προς τους επόμενους ερευνητές.	el
heal.abstract	In the context of Marketing science, understanding trends and opinions regarding topics, events, people and products is of great importance, and sentiment analysis of texts is a very useful tool towards this goal. The predominant method of such analysis in recent years has been the use of dictionaries of emotionally pre-evaluated terms. Whenever these dictionaries are available and sufficiently detailed (as for example in the English language), their results can be excellent. However, when they are not as extensive/specialized as needed or in some languages (such as Greek) are very limited or even non-existent, an alternative approach is necessary that will be able to yield satisfactory emotional analysis results, making only use of raw, non-evaluated texts. This thesis, regarding the part of data analysis, examines the feasibility and makes an initial investigation of the effectiveness of the use of modern machine learning models, pre-trained in Natural Language Inference (NLI) tasks, for sentiment analysis specifically in Greek texts, through zero-shot classification techniques. For this purpose, the initial part of the work deals with the Twitter social network and its programming interfaces (APIs) for the collection of the texts to be evaluated, and then with their pre-processing techniques. A first attempt to improve the understanding capabilities of the models used, by expanding their dictionaries with words from collected texts, proves to be ineffective when not followed by model retraining - a computationally expensive process, which is beyond the scope of this work. Using unchanged freely available pre-trained multilingual NLI models (in our case DeBERTa) on Greek tweets, it is found that their results regarding sentiment analysis purposes on raw texts, are very encouraging. The thesis concludes by proposing an additional method of results evaluation, as well as fields of possible improvement of the method for the future researchers.	en
heal.language	Ελληνικά	el
heal.language	Greek	en
heal.academicPublisher	ΕΛ.ΜΕ.ΠΑ., ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ (ΣΕΔΟ), Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας	el
heal.academicPublisher	Η.Μ.U, School of Management and Economic Sciences (SMES), Management Science and Technology Dept.	en
heal.title	Μελέτη twitter API και ανάλυση δεδομένων.	el
heal.title	Study of twitter API and data analysis.	en
heal.type	Μεταπτυχιακή Διατριβή	el
heal.type	Master thesis	en
heal.keyword	διεπαφή προγραμματισμού εφαρμογών, συναισθηματική ανάλυση, συμπεράσματα φυσικής γλώσσας, μετασχηματιστές, αναγνώριση γλωσσικών μονάδων, ταξινόμηση μηδενικής βολής	el
heal.keyword	application programming interface, sentiment analysis, natural Language inference, transformers, tokenization, zero-shot classification	en
heal.advisorName	Μαστοράκης, Γεώργιος	el
heal.advisorName	Mastorakis, Georgios	en
heal.advisorID.email	gmastorakis@hmu.gr
heal.academicPublisherID	ΕΛ.ΜΕ.ΠΑ. Ελληνικό Μεσογειακό Πανεπιστήμιο	el
heal.academicPublisherID	Η.Μ.U Hellenic Mediterranean University‎	en

Αρχεία σε αυτό το τεκμήριο

Name:: KonstantourakisIosif2023.pdf
Μέγεθος:: 3.219Mb
Τύπος:: PDF

Προβολή/Άνοιγμα

Name:: license_rdf
Μέγεθος:: 1.203Kb
Τύπος:: application/rdf+xml

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Μεταπτυχιακές εργασίες / Master Theses [397]

Εμφάνιση απλής εγγραφής

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States