Πολυ-ομική ανάλυση γενομικών δεδομένων για την κατηγοριοποίηση δειγμάτων γλοιοβλαστώματος.
Multi-omic analysis of genomic data for the classification of glioblastoma samples.
View/ Open
Date
2023-05-10Author
Οικονόμου, Νικόλαος
Oikonomou, Nikolaos
Metadata
Show full item recordAbstract
Η ομαδοποίηση μεμονωμένων ομικών συνόλων δεδομένων έχει αποδειχθεί ανεκτίμητη για τη βιολογική και ιατρική έρευνα. Το μειούμενο κόστος και η ανάπτυξη μεθόδων αλληλούχισης νέας γενιάς (NGS) επιτρέπουν πλέον τη μέτρηση πολύ-ομικών δεδομένων. Η ομαδοποίηση πολλαπλών ομικών δεδομένων έχει τη δυνατότητα να αποκαλύψει περαιτέρω γνώσεις σε επίπεδο συστήματος, αλλά εγείρει υπολογιστικές και βιολογικές προκλήσεις.
Η παρούσα πτυχιακή εξετάζει αλγορίθμους για ομαδοποίηση πολλαπλών ομικών δεδομένων καθώς και μεθοδολογίες από την περιοχή της μηχανικής μάθησης για την κοινή ομαδοποίηση πολλαπλών τύπων δεδομένων. Το πρώτο μέρος της εν λόγω μελέτης ασχολείται με την περιγραφή του γλοιοβλαστώματος ως καρκινικός τύπος και περιλαμβάνει έννοιες από το πεδίο της βιολογίας οι οποίες κρίνονται σημαντικές. Στη συνέχεια, γίνεται αναφορά στο πεδίο της μηχανικής μάθησης αναλύοντας κατηγορίες αλγορίθμων όπως για παράδειγμα επιτηρούμενη μάθηση, μη επιτηρούμενη μάθηση, ενισχυτική μάθηση και παρουσιάζει εφαρμογές της μηχανικής μάθησης στην σημερινή εποχή.
Πέρα των προαναφερθέντων εννοιών, γίνεται παρουσίαση των αποτελεσμάτων των αλγορίθμων και των τεχνικών που χρησιμοποιήθηκαν όπως για παράδειγμα η χρήση του αλγορίθμου SMOTE και τα τελικά συμπεράσματα που προέκυψαν.
Πιο συγκεκριμένα, χρησιμοποιήθηκαν οι αλγόριθμοι μηχανικής μάθησης SVM και Decision Tree σε ομικά δεδομένα, Gene expression, DNA Methylation, miRNA και κλινικά δεδομένα που αντλήθηκαν από τη γενομική βάση TCGA και αφορούν ασθενείς με γλοιοβλάστωμα. Έγινε η απαραίτητη προ-επεξεργασία των δεδομένων και οι ασθενείς κατηγοριοποιήθηκαν βάση της κατάστασης τους (εν ζωή ή αποθανών). Να σημειωθεί ότι έγινε χρήση του αλγορίθμου υπερδειγματοληψίας SMOTE καθώς τα των δεδομένων ήταν ανισόρροπο. Εφαρμόστηκαν τα μοντέλα σε κάθε ομικό σύνολο ξεχωριστά και στην ενοποιημένη αναπαράσταση που προέκυψε από την χρήση της στρατηγικής για πολύ-ομικα δεδομένα, early integration. Προέκυψε ότι, η εν λόγω στρατηγική έδωσε καλύτερα αποτελέσματα συγκριτικά με την ανάλυση κάθε ομικού επιπέδου ξεχωριστά δίνοντας ως αποτέλεσμα στο δέντρο απόφασης χαρακτηριστικά από όλα τα ομικά επίπεδα. Ειδικότερα, ο αλγόριθμος SVM παρουσίασε ακρίβεια 88.23% και ο Decision Tree 72,54%. Τέλος, η εν λόγω στρατηγική χρησιμοποιήθηκε και σε άλλα καρκινικά δεδομένα, ώστε να φανεί η αποτελεσματικότητα της και σε άλλα δεδομένα πέρα του γλοιοβλαστώματος. Clustering of individual omic datasets has proven invaluable for biological and medical research. Decreasing costs and the development of next-generation sequencing (NGS) methods now have the measurement of multi-omic data. Clustering multiple omics data has the potential to reveal further systems-level insights, but raises computational and biological challenges.
This thesis examines algorithms for clustering multiple omic data as well as methodologies from the area of machine learning for joint clustering of multiple data types. The first part of this study deals with the description of glioblastoma as a type of cancer and includes concepts from the field of biology which are considered important. Then, a reference is made to the field of machine learning by analyzing categories of algorithms such as supervised learning, unsupervised learning, reinforcement learning, and applications of machine learning in today's era.
In addition to the aforementioned concepts, the results of the algorithms and techniques used are presented, such as the use of the SMOTE algorithm and the final conclusions obtained.
More specifically, SVM and Decision Tree machine learning algorithms were used on omic data, Gene expression, DNA Methylation, miRNA, and clinical data extracted from the TCGA genomic database and related to patients with glioblastoma. The necessary pre-processing of the data was done and the patients were categorized based on their status (alive or deceased). Note that, the SMOTE oversampling algorithm was used as the data was imbalanced. The models were applied to each omic set separately and to the unified representation resulting from the use of the strategy for multi-omic data, early integration. It turned out, that this strategy gave better results compared to analyzing each omic level separately, resulting in a decision tree with features from all omic levels. In particular, the SVM algorithm presented an accuracy of 88.23% and the Decision Tree 72.54%. Finally, this strategy was also used in other cancer data to show its effectiveness in other data beyond glioblastoma.
Collections
The following license files are associated with this item:
This website uses cookies to ensure you get the best browsing experience.
Continue
More info