Μελέτη twitter API και ανάλυση δεδομένων.
Study of twitter API and data analysis.

View/ Open
Date
2023-04-26Author
Κωνσταντουράκης, Ιωσήφ
Konstantourakis, Iosif
Metadata
Show full item recordAbstract
Στα πλαίσια της επιστήμης του Marketing, η κατανόηση των τάσεων και των απόψεων γύρω
από θεματικές, γεγονότα, πρόσωπα και προϊόντα είναι μεγάλης σημασίας, και η συναισθηματική
ανάλυση κειμένων αποτελεί ένα πολύ χρήσιμο εργαλείο για αυτόν τον σκοπό. Η επικρατέστερη
μέθοδος τα τελευταία χρόνια ήταν η χρησιμοποίηση λεξικών συναισθηματικά
προ-αξιολογημένων όρων. Όταν τα λεξικά αυτά είναι διαθέσιμα και επαρκώς αναλυτικά (όπως
για παράδειγμα στην αγγλική γλώσσα), τα αποτελέσματά τους μπορούν να είναι εξαιρετικά.
Όταν όμως δεν είναι όσο εκτεταμένα/εξειδικευμένα χρειάζεται ή σε κάποιες γλώσσες (όπως η
ελληνική) μπορεί να είναι πολύ περιορισμένα έως και ανύπαρκτα, είναι αναγκαία μια
εναλλακτική προσέγγιση που θα μπορεί να αποδίδει ικανοποιητικά αποτελέσματα
συναισθηματικής ανάλυσης έχοντας διαθέσιμα μόνο πρωτογενή, μη προ-αξιολογημένα κείμενα.
H παρούσα διπλωματική εργασία, αναφορικά με το κομμάτι της ανάλυσης δεδομένων, εξετάζει
την εφικτότητα και κάνει μια πρώτη διερεύνηση της αποτελεσματικότητας της χρήσης
σύγχρονων μοντέλων μηχανικής μάθησης (machine learning), προεκπαιδευμένων σε εργασίες
συμπερασμάτων φυσικής γλώσσας (Natural Language Inference - NLI), για την ανάλυση
συναισθήματος συγκεκριμένα σε ελληνικά κείμενα, μέσω τεχνικών ταξινόμησης μηδενικής
βολής (zero-shot classification). Για τον σκοπό αυτό, το αρχικό τμήμα της εργασίας ασχολείται
με το κοινωνικό δίκτυο Twitter και τις προγραμματιστικές διεπαφές του για την συλλογή των
κειμένων προς αξιολόγηση, και κατόπιν με τεχνικές προεπεξεργασίας τους.
Μια πρώτη απόπειρα βελτίωσης των δυνατοτήτων κατανόησης των χρησιμοποιούμενων
μοντέλων, μέσω εμπλουτισμού των λεξικών τους με λέξεις από τα συλλεγμένα κείμενα,
αποδεικνύεται αναποτελεσματική όταν δεν ακολουθείται από επανεκπαίδευσή τους -
διαδικασία “ακριβή” από υπολογιστικής άποψης, που ξεφεύγει από τους σκοπούς της εργασίας
αυτής. Χρησιμοποιώντας λοιπόν χωρίς μεταβολές ελεύθερα διαθέσιμα προεκπαιδευμένα
πολυγλωσσικά μοντέλα NLI (στην περίπτωσή μας το DeBERTa) πάνω σε ελληνικά tweets,
διαπιστώνεται ότι τα αποτελέσματά τους για σκοπούς ανάλυσης συναισθήματος σε πρωτογενή
κείμενα, είναι πολύ ενθαρρυντικά. Η διπλωματική εργασία κλείνει προτείνοντας μια επιπλέον
μέθοδο αξιολόγησης των αποτελεσμάτων, καθώς και πεδία πιθανής βελτίωσης της μεθόδου
προς τους επόμενους ερευνητές. In the context of Marketing science, understanding trends and opinions regarding topics, events,
people and products is of great importance, and sentiment analysis of texts is a very useful tool
towards this goal. The predominant method of such analysis in recent years has been the use of
dictionaries of emotionally pre-evaluated terms. Whenever these dictionaries are available and
sufficiently detailed (as for example in the English language), their results can be excellent.
However, when they are not as extensive/specialized as needed or in some languages (such as
Greek) are very limited or even non-existent, an alternative approach is necessary that will be able
to yield satisfactory emotional analysis results, making only use of raw, non-evaluated texts.
This thesis, regarding the part of data analysis, examines the feasibility and makes an initial
investigation of the effectiveness of the use of modern machine learning models, pre-trained in
Natural Language Inference (NLI) tasks, for sentiment analysis specifically in Greek texts, through
zero-shot classification techniques. For this purpose, the initial part of the work deals with the
Twitter social network and its programming interfaces (APIs) for the collection of the texts to be
evaluated, and then with their pre-processing techniques.
A first attempt to improve the understanding capabilities of the models used, by expanding their
dictionaries with words from collected texts, proves to be ineffective when not followed by model
retraining - a computationally expensive process, which is beyond the scope of this work. Using
unchanged freely available pre-trained multilingual NLI models (in our case DeBERTa) on Greek
tweets, it is found that their results regarding sentiment analysis purposes on raw texts, are very
encouraging. The thesis concludes by proposing an additional method of results evaluation, as
well as fields of possible improvement of the method for the future researchers.
Collections
The following license files are associated with this item:
This website uses cookies to ensure you get the best browsing experience.
Continue
More info