Πολυ-ομική ανάλυση γενομικών δεδομένων για την κατηγοριοποίηση δειγμάτων γλοιοβλαστώματος.

Oikonomou, Nikolaos; Οικονόμου, Νικόλαος

Multi-omic analysis of genomic data for the classification of glioblastoma samples.

Στοιχεία Dublin Core

dc.creator	Οικονόμου, Νικόλαος	el
dc.creator	Oikonomou, Nikolaos	en
dc.date.accessioned	2023-05-10T07:22:33Z
dc.date.available	2023-05-10T07:22:33Z
dc.date.issued	2023-05-10
dc.identifier.uri	http://hdl.handle.net/20.500.12688/10552
dc.description.abstract	Η ομαδοποίηση μεμονωμένων ομικών συνόλων δεδομένων έχει αποδειχθεί ανεκτίμητη για τη βιολογική και ιατρική έρευνα. Το μειούμενο κόστος και η ανάπτυξη μεθόδων αλληλούχισης νέας γενιάς (NGS) επιτρέπουν πλέον τη μέτρηση πολύ-ομικών δεδομένων. Η ομαδοποίηση πολλαπλών ομικών δεδομένων έχει τη δυνατότητα να αποκαλύψει περαιτέρω γνώσεις σε επίπεδο συστήματος, αλλά εγείρει υπολογιστικές και βιολογικές προκλήσεις. Η παρούσα πτυχιακή εξετάζει αλγορίθμους για ομαδοποίηση πολλαπλών ομικών δεδομένων καθώς και μεθοδολογίες από την περιοχή της μηχανικής μάθησης για την κοινή ομαδοποίηση πολλαπλών τύπων δεδομένων. Το πρώτο μέρος της εν λόγω μελέτης ασχολείται με την περιγραφή του γλοιοβλαστώματος ως καρκινικός τύπος και περιλαμβάνει έννοιες από το πεδίο της βιολογίας οι οποίες κρίνονται σημαντικές. Στη συνέχεια, γίνεται αναφορά στο πεδίο της μηχανικής μάθησης αναλύοντας κατηγορίες αλγορίθμων όπως για παράδειγμα επιτηρούμενη μάθηση, μη επιτηρούμενη μάθηση, ενισχυτική μάθηση και παρουσιάζει εφαρμογές της μηχανικής μάθησης στην σημερινή εποχή. Πέρα των προαναφερθέντων εννοιών, γίνεται παρουσίαση των αποτελεσμάτων των αλγορίθμων και των τεχνικών που χρησιμοποιήθηκαν όπως για παράδειγμα η χρήση του αλγορίθμου SMOTE και τα τελικά συμπεράσματα που προέκυψαν. Πιο συγκεκριμένα, χρησιμοποιήθηκαν οι αλγόριθμοι μηχανικής μάθησης SVM και Decision Tree σε ομικά δεδομένα, Gene expression, DNA Methylation, miRNA και κλινικά δεδομένα που αντλήθηκαν από τη γενομική βάση TCGA και αφορούν ασθενείς με γλοιοβλάστωμα. Έγινε η απαραίτητη προ-επεξεργασία των δεδομένων και οι ασθενείς κατηγοριοποιήθηκαν βάση της κατάστασης τους (εν ζωή ή αποθανών). Να σημειωθεί ότι έγινε χρήση του αλγορίθμου υπερδειγματοληψίας SMOTE καθώς τα των δεδομένων ήταν ανισόρροπο. Εφαρμόστηκαν τα μοντέλα σε κάθε ομικό σύνολο ξεχωριστά και στην ενοποιημένη αναπαράσταση που προέκυψε από την χρήση της στρατηγικής για πολύ-ομικα δεδομένα, early integration. Προέκυψε ότι, η εν λόγω στρατηγική έδωσε καλύτερα αποτελέσματα συγκριτικά με την ανάλυση κάθε ομικού επιπέδου ξεχωριστά δίνοντας ως αποτέλεσμα στο δέντρο απόφασης χαρακτηριστικά από όλα τα ομικά επίπεδα. Ειδικότερα, ο αλγόριθμος SVM παρουσίασε ακρίβεια 88.23% και ο Decision Tree 72,54%. Τέλος, η εν λόγω στρατηγική χρησιμοποιήθηκε και σε άλλα καρκινικά δεδομένα, ώστε να φανεί η αποτελεσματικότητα της και σε άλλα δεδομένα πέρα του γλοιοβλαστώματος.	el
dc.description.abstract	Clustering of individual omic datasets has proven invaluable for biological and medical research. Decreasing costs and the development of next-generation sequencing (NGS) methods now have the measurement of multi-omic data. Clustering multiple omics data has the potential to reveal further systems-level insights, but raises computational and biological challenges. This thesis examines algorithms for clustering multiple omic data as well as methodologies from the area of machine learning for joint clustering of multiple data types. The first part of this study deals with the description of glioblastoma as a type of cancer and includes concepts from the field of biology which are considered important. Then, a reference is made to the field of machine learning by analyzing categories of algorithms such as supervised learning, unsupervised learning, reinforcement learning, and applications of machine learning in today's era. In addition to the aforementioned concepts, the results of the algorithms and techniques used are presented, such as the use of the SMOTE algorithm and the final conclusions obtained. More specifically, SVM and Decision Tree machine learning algorithms were used on omic data, Gene expression, DNA Methylation, miRNA, and clinical data extracted from the TCGA genomic database and related to patients with glioblastoma. The necessary pre-processing of the data was done and the patients were categorized based on their status (alive or deceased). Note that, the SMOTE oversampling algorithm was used as the data was imbalanced. The models were applied to each omic set separately and to the unified representation resulting from the use of the strategy for multi-omic data, early integration. It turned out, that this strategy gave better results compared to analyzing each omic level separately, resulting in a decision tree with features from all omic levels. In particular, the SVM algorithm presented an accuracy of 88.23% and the Decision Tree 72.54%. Finally, this strategy was also used in other cancer data to show its effectiveness in other data beyond glioblastoma.	en
dc.language	Ελληνικά	el
dc.language	Greek	en
dc.publisher	ΕΛ.ΜΕ.ΠΑ., ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ (ΣΜΗΧ), Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
dc.publisher	Η.Μ.U, School of Engineering (ScENG), Electrical and Computer Engineering Dept	en
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
dc.title	Πολυ-ομική ανάλυση γενομικών δεδομένων για την κατηγοριοποίηση δειγμάτων γλοιοβλαστώματος.	el
dc.title	Multi-omic analysis of genomic data for the classification of glioblastoma samples.	en

Στοιχεία healMeta

heal.creatorName	Οικονόμου, Νικόλαος	el
heal.creatorName	Oikonomou, Nikolaos	en
heal.publicationDate	2023-05-10
heal.identifier.primary	http://hdl.handle.net/20.500.12688/10552
heal.abstract	Η ομαδοποίηση μεμονωμένων ομικών συνόλων δεδομένων έχει αποδειχθεί ανεκτίμητη για τη βιολογική και ιατρική έρευνα. Το μειούμενο κόστος και η ανάπτυξη μεθόδων αλληλούχισης νέας γενιάς (NGS) επιτρέπουν πλέον τη μέτρηση πολύ-ομικών δεδομένων. Η ομαδοποίηση πολλαπλών ομικών δεδομένων έχει τη δυνατότητα να αποκαλύψει περαιτέρω γνώσεις σε επίπεδο συστήματος, αλλά εγείρει υπολογιστικές και βιολογικές προκλήσεις. Η παρούσα πτυχιακή εξετάζει αλγορίθμους για ομαδοποίηση πολλαπλών ομικών δεδομένων καθώς και μεθοδολογίες από την περιοχή της μηχανικής μάθησης για την κοινή ομαδοποίηση πολλαπλών τύπων δεδομένων. Το πρώτο μέρος της εν λόγω μελέτης ασχολείται με την περιγραφή του γλοιοβλαστώματος ως καρκινικός τύπος και περιλαμβάνει έννοιες από το πεδίο της βιολογίας οι οποίες κρίνονται σημαντικές. Στη συνέχεια, γίνεται αναφορά στο πεδίο της μηχανικής μάθησης αναλύοντας κατηγορίες αλγορίθμων όπως για παράδειγμα επιτηρούμενη μάθηση, μη επιτηρούμενη μάθηση, ενισχυτική μάθηση και παρουσιάζει εφαρμογές της μηχανικής μάθησης στην σημερινή εποχή. Πέρα των προαναφερθέντων εννοιών, γίνεται παρουσίαση των αποτελεσμάτων των αλγορίθμων και των τεχνικών που χρησιμοποιήθηκαν όπως για παράδειγμα η χρήση του αλγορίθμου SMOTE και τα τελικά συμπεράσματα που προέκυψαν. Πιο συγκεκριμένα, χρησιμοποιήθηκαν οι αλγόριθμοι μηχανικής μάθησης SVM και Decision Tree σε ομικά δεδομένα, Gene expression, DNA Methylation, miRNA και κλινικά δεδομένα που αντλήθηκαν από τη γενομική βάση TCGA και αφορούν ασθενείς με γλοιοβλάστωμα. Έγινε η απαραίτητη προ-επεξεργασία των δεδομένων και οι ασθενείς κατηγοριοποιήθηκαν βάση της κατάστασης τους (εν ζωή ή αποθανών). Να σημειωθεί ότι έγινε χρήση του αλγορίθμου υπερδειγματοληψίας SMOTE καθώς τα των δεδομένων ήταν ανισόρροπο. Εφαρμόστηκαν τα μοντέλα σε κάθε ομικό σύνολο ξεχωριστά και στην ενοποιημένη αναπαράσταση που προέκυψε από την χρήση της στρατηγικής για πολύ-ομικα δεδομένα, early integration. Προέκυψε ότι, η εν λόγω στρατηγική έδωσε καλύτερα αποτελέσματα συγκριτικά με την ανάλυση κάθε ομικού επιπέδου ξεχωριστά δίνοντας ως αποτέλεσμα στο δέντρο απόφασης χαρακτηριστικά από όλα τα ομικά επίπεδα. Ειδικότερα, ο αλγόριθμος SVM παρουσίασε ακρίβεια 88.23% και ο Decision Tree 72,54%. Τέλος, η εν λόγω στρατηγική χρησιμοποιήθηκε και σε άλλα καρκινικά δεδομένα, ώστε να φανεί η αποτελεσματικότητα της και σε άλλα δεδομένα πέρα του γλοιοβλαστώματος.	el
heal.abstract	Clustering of individual omic datasets has proven invaluable for biological and medical research. Decreasing costs and the development of next-generation sequencing (NGS) methods now have the measurement of multi-omic data. Clustering multiple omics data has the potential to reveal further systems-level insights, but raises computational and biological challenges. This thesis examines algorithms for clustering multiple omic data as well as methodologies from the area of machine learning for joint clustering of multiple data types. The first part of this study deals with the description of glioblastoma as a type of cancer and includes concepts from the field of biology which are considered important. Then, a reference is made to the field of machine learning by analyzing categories of algorithms such as supervised learning, unsupervised learning, reinforcement learning, and applications of machine learning in today's era. In addition to the aforementioned concepts, the results of the algorithms and techniques used are presented, such as the use of the SMOTE algorithm and the final conclusions obtained. More specifically, SVM and Decision Tree machine learning algorithms were used on omic data, Gene expression, DNA Methylation, miRNA, and clinical data extracted from the TCGA genomic database and related to patients with glioblastoma. The necessary pre-processing of the data was done and the patients were categorized based on their status (alive or deceased). Note that, the SMOTE oversampling algorithm was used as the data was imbalanced. The models were applied to each omic set separately and to the unified representation resulting from the use of the strategy for multi-omic data, early integration. It turned out, that this strategy gave better results compared to analyzing each omic level separately, resulting in a decision tree with features from all omic levels. In particular, the SVM algorithm presented an accuracy of 88.23% and the Decision Tree 72.54%. Finally, this strategy was also used in other cancer data to show its effectiveness in other data beyond glioblastoma.	en
heal.language	Ελληνικά	el
heal.language	Greek	en
heal.academicPublisher	ΕΛ.ΜΕ.ΠΑ., ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ (ΣΜΗΧ), Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisher	Η.Μ.U, School of Engineering (ScENG), Electrical and Computer Engineering Dept	en
heal.title	Πολυ-ομική ανάλυση γενομικών δεδομένων για την κατηγοριοποίηση δειγμάτων γλοιοβλαστώματος.	el
heal.title	Multi-omic analysis of genomic data for the classification of glioblastoma samples.	en
heal.type	Πτυχιακή Εργασία	el
heal.type	Bachelor thesis	en
heal.keyword	πολυ-ομική ανάλυση, μηχανική μάθηση, δεοξυριβονουκλεϊκό οξύ, ριβονουκλεϊκό οξύ, γλοιοβλάστωμα, καρκίνος, βιοπληροφορική	el
heal.keyword	multi-omics analysis, machine learning, deoxyribonucleic acid (DNA), ribonucleic acid (RNA), glioblastoma, cancer, bioinformatics	en
heal.access	free	el
heal.advisorName	Τσικνάκης, Εμμανουήλ	el
heal.advisorName	Tsiknakis, Emmanouil	en
heal.academicPublisherID	ΕΛ.ΜΕ.ΠΑ. Ελληνικό Μεσογειακό Πανεπιστήμιο	el
heal.academicPublisherID	Η.Μ.U Hellenic Mediterranean University‎	en
heal.fullTextAvailability	true	el
tcd.distinguished	false	el
tcd.survey	false	el

Αρχεία σε αυτό το τεκμήριο

Name:: OikonomouNikolaos2022.pdf
Μέγεθος:: 1.825Mb
Τύπος:: PDF

Προβολή/Άνοιγμα

Name:: license_rdf
Μέγεθος:: 1.203Kb
Τύπος:: application/rdf+xml

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Πτυχιακές εργασίες / Bachelor Theses [1168]

Εμφάνιση απλής εγγραφής

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States