ανάκτηση πληροφορίας

Named Entity Recognition and new metrics for big economic data

During the last five years, there is a growing number of initiatives for publishing detailed economic data such as business information (e.g. https://opencorporates.com/), public procurement (e.g. http://platform.yourdatastories.eu/ and https://opentender.eu/).
These initiatives aim to increase the accountability in the context of “follow public money” projects and, at the same time, create opportunities for business intelligence solutions.
The project is focused on two aspects: (1) name entity recognition of the contracting parts in public procurement around the world using Natural Language Processing and Computational Linguistics, Semantic Web and Linked Open Data and Business Registries and Corporate Databases and (2) new metrics for supporting business intelligence solutions such risk factors for public procurement and business survival rate.
Particularly, in the area of NLP, research efforts are focused on addressing data heterogeneities such as misspelling errors and name or acronym mismatches, on the lexical, syntactic and semantic level. These methodologies and practices can be applied to solve general problems and usually follow a traditional approach of text normalization, lexical analysis, post-tagging word according to a grammar and semantic analysis to filter or provide some kind of service such as information extraction, reporting, sentiment analysis or opinion mining. In this context, a series of services (most in the form of an API) such as NLTK for Python, Lingpipe, OpenNLP or Gate for Java, WEKA, the Apache Lucene and Solr search engines have been created in order to serve the creation of natural-language based applications.
Entity reconciliation techniques to uniquely identify resources is also investigated in the field of Semantic Web and Linked Open Data. Specifically, an entity reconciliation process can be briefly defined as the method for looking and mapping two different concepts or entities under a certain threshold. These techniques have been applied to the field of linking entities in the LOD realm, for instance using the DBpedia.
According to the Global Open Data Index* and the Open Company Data Index** only few countries are providing their business registries as high quality open data. But even in the cases where corporate information such as name of company, address, unique identifier of the company, the owner, capital, approved and registration dates are publicly available by the official government, re-using this valuable information can be tedious due to various reasons such as different content, formats and updating process.

*http://index.okfn.org/place/
**http://registries.opencorporates.com/

Υπολογιστικές μέθοδοι αξιολόγησης της λειτουργικότητας πρωτεϊνών μειωμένου μεγέθους για χρήση σε γονιδιακές θεραπείες της μυϊκής δυστροφίας Duchenne

Η μυϊκή δυστροφία Duchenne είναι μία ανίατη ασθένεια, η οποία οφείλεται σε μετάλλαξη του γονιδίου της δυστροφίνης. Η μετάλλαξη οδηγεί στην έλλειψη δυστροφίνης και τη σταδιακή καταστροφή των μυών. Πρόσφατα έχουν αναπτυχθεί γονιδιακές θεραπείες για τη νόσο, οι οποίες είχαν θετικά αποτελέσματα σε εργαστηριακές και κλινικές δοκιμές. Μία προσέγγιση αφορά τον εμπλουτισμό των μυϊκών κυττάρων με γονίδια που μπορούν να παράγουν λειτουργική δυστροφίνη. Το γενετικό υλικό μεταφέρεται στα κύτταρα με τη βοήθεια αδενο-συσχετιζόμενων ιών, οι οποίοι όμως δεν μπορούν μεταφέρουν το πλήρες γονίδιο της δυστροφίνης. Συνεπώς είναι απαραίτητος ο καθορισμός παραλλαγών του γονιδίου που είναι μικρότερες σε μέγεθος, αλλά λειτουργικές. Αυτές είναι γνωστές ως μικροδυστροφίνες.
Στα πλαίσια της προτεινόμενης εργασίας, θα αναπτυχθεί υπολογιστική μέθοδος πρόβλεψης της λειτουργικότητας μικροδυστροφινών. Η μέθοδος αυτή θα βασιστεί στη γνώση που έχουμε για τη δομή και τη λειτουργία της δυστροφίνης, αλλά και σε ανάλυση περιπτώσεων μικροδυστρφινών που έχουν αξιολογηθεί ως περισσότερο ή λιγότερο λειτουργικές.

Επαναστόχευση υπαρχόντων θεραπειών για την αντιμετώπιση της μυϊκής δυστροφίας Duchenne

Η επαναστόχευση θεραπειών είναι μία ευρέως χρησιμοποιούμενη και ιδιαίτερα
αποτελεσματική διαδικασία ανακάλυψης νέων στόχων για υπάρχουσες θεραπείες. Υπάρχουν πολλά παραδείγματα φαρμάκων τα οποία είχαν αρχικά σχεδιαστεί για μια ασθένεια και αποδείχθηκαν αποτελεσματικά για κάποια άλλη. Χαρακτηριστικό παράδειγμα είναι η θαλιδομίδη, η οποία σχεδιάστηκε ως ηρεμιστικό, αποσύρθηκε λόγω δυσπλασιών σε βρέφη, και επανεγκρίθηκε για την αντιμετώπιση κάποιων καρκίνων και μίας επιπλοκής της λέπρας.

Η μυϊκή δυστροφία Duchenne είναι μία ανίατη ασθένεια, η οποία οφείλεται σε μετάλλαξη του γονιδίου της δυστροφίνης. Η μετάλλαξη οδηγεί στην έλλειψη δυστροφίνης και τη σταδιακή καταστροφή των μυών. Μία προσέγγιση στην αντιμετώπιση της νόσου είναι η επαναστόχευση φαρμάκων που είχαν σχεδιαστεί για άλλες ασθένειες. Μεταξύ των πλεονεκτημάτων αυτής της προσέγγισης είναι το ότι τα φάρμακα αυτά έχουν μελετηθεί εκτενώς, σε εργαστηριακό και κλινικό επίπεδο (κλινικές μελέτες), γεγονός που επιταχύνει την έγκρισή τους για τη νέα ένδειξη και τη διάθεσή τους στους ασθενείς.

Στα πλαίσια της προτεινόμενης εργασίας θα αναζητηθούν και θα αξιολογηθούν υπάρχουσες θεραπείες ως προς την πιθανή αποτελεσματικότητά τους για τη μυϊκή δυστροφία Duchenne. Για το σκοπό αυτό θα απαιτηθεί α) εκτενής βιβλιογραφική αναζήτηση των μοριακών μηχανισμών που εμπλέκονται στην παθογένεση της νόσου και τον εντοπισμό υποσχόμενων θεραπευτικών στόχων, β) χρήση υπολογιστικών εργαλείων αναζήτησης και ανάλυσης της βιβλιογραφίας και σχετικού υλικού από βάσεις δεδομένων. Τα εργαλεία αυτά θα χρησιμοποιηθούν για τη συλλογή και την οργάνωση της πληροφορίας και την τελική αξιολόγηση των επανεστοχευόμενων θεραπειών.

Κατηγοριοποίηση βιολογικών δεδομένων χρησιμοποιώντας τεχνικές μεταφοράς μάθησης

Ένα από τα ανοιχτά προβλήματα της βιοπληροφορικής, είναι η αυτόματη πρόβλεψη γονιδίων (αλληλουχία νουκλεοτιδίων που κωδικοποιεί πρωτεΐνες). Πιο συγκεκριμένα, οι ερευνητές προσπαθούν να προβλέψουν τις θέσεις που αντιστοιχούν στην αρχή και το τέλος των γονιδίων σε ένα γονιδίωμα. Οι θέσεις αυτές είναι γνωστές ως σήματα ματίσματος (splice sites). Διάφορες τεχνικές της μηχανικής μάθησης έχουν χρησιμοποιηθεί για το συγκεκριμένο πρόβλημα. Παρόλα αυτά, η απόκτηση των επισημειωμένων δεδομένων που είναι αναγκαία για να εφαρμοστούν οι τεχνικές επιβλεπόμενης μάθησης, αποτελεί μια σημαντική πρόκληση, καθώς το κόστος είναι πολύ μεγάλο. Μία από τις προσεγγίσεις για την αντιμετώπιση αυτού του προβλήματος είναι η μεταφορά μάθησης (transfer learning). Στόχος της παρούσας εργασίας είναι η εφαρμογή και επέκταση τεχνικών μεταφοράς μάθησης σε βιολογικά δεδομένα, με στόχο την εύρεση των λεγόμενων σημάτων ματίσματος (splice sites) σε έναν οργανισμό, έχοντας δεδομένα εκπαίδευσης από κάποιον διαφορετικό οργανισμό.

Ενσωμάτωση πληροφορίας ήχου, εικόνας και κειμένου σε σύστημα συστάσεων κινηματογραφικών ταινιών

Η εργασία αυτή επικεντρώνεται στην ανάπτυξη ενός συστήματος συστάσεων κινηματογραφικών ταινιών, με έμφαση στην χρήση πληροφορίας που προέρχεται από το ηχητικό περιεχόμενο και το περιεχόμενο των υποτίτλων.

Τα συστήματα συστάσεων χρησιμοποιούνται τα τελευταία χρόνια σε τομείς όπως η ψυχαγωγία, το ηλεκτρονικό εμπόριο αλλά και σε ευρείες διαδικτυακές υπηρεσίες. Σκοπός τους είναι να προτείνουν στον "πελάτη" της αντίστοιχης εφαρμογής τα προϊόντα (βιβλία, ταινίες, ηλεκτρονικές συσκευές, κα) που "ταιριάζουν" στο προφίλ του και στις προτιμήσεις του. Στις περισσότερες περιπτώσεις τα συστήματα αυτά βασίζονται σε συνεργατικό φιλτράρισμα (collaborative filtering), δηλαδή προτείνουν βασισμένα σε προτιμήσεις παρόμοιων χρηστών.

Στα πλαίσια της παρούσας εργασίας, θα επικεντρωθούμε, εκτός από την συνεργατική πληροφορία που προέρχεται από τις "συσχετίσεις" των χρηστών, και σε πληροφορία περιεχομένου. Συγκεκριμένα, θα ερευνηθούν στατιστικές συσχετίσεις στις κατανομές ηχητικών χαρακτηριστικών και κειμένου με τις προτιμήσεις των χρηστών. Έτσι, θα (α) εξάγουμε γνώση για το πώς ενδέχεται κάποιες επιλογές χρηστών για συγκεκριμένες ταινίες να σχετίζονται με χαρακτηριστικά του ήχου και των υποτίτλων των ταινιών αυτών και (β) θα χρησιμοποιήσουμε την συσχέτιση αυτή για να βελτιώσουμε την σύσταση.

Χρήσιμα links:

Ευρετηρίαση δομών γράφων με στόχο την εύρεση εγγύτερου γείτονα

Μια πληθώρα δεδομένων μπορεί να αναπαρασταθεί ως γράφος (π.χ. κοινωνικά δίκτυα, γλωσσικές δομές, διασύνδεση ιστοτόπων). Η αναζήτηση, δεδομένου ενός γράφου, των εγγύτερων γειτόνων του μπορεί να είναι μία πολύ χρονοβόρα διαδικασία σε βάσεις που περιέχουν εκκατομύρια γράφους. Για το σκοπό αυτό έχουν αναπτυχθεί τεχνικές ευρετηρίασης γράφων. Σκοπός της εργασίας είναι η υλοποίηση και μελέτη επίδοσης μίας νέας δομής ευρετηρίασης γράφων, με ιδιαίτερη εφαρμογή στην εύρεση εγγύτερου γείτονα.

Μελέτη της δομής της χρωματίνης μέσω αναζήτησης μοτίβων νουκλεωσωμάτων με τη χρήση γράφων ν-γραμμάτων

Στο Εργαστήριο έχουμε αναπτύξει μία μέθοδο αναπαράστασης κειμένων με γράφους ν-
γραμμάτων, η οποία έχει χρησιμοποιηθεί με επιτυχία στην ανάλυση γονιδιωματικών αλληλουχιών. Η προτεινόμενη εργασία έχει σαν αντικείμενο την μελέτη αλληλουχιών με δομικό ρόλο στα ευκαρυωτικά γονιδιώματα. Πιο συγκεκριμένα, σκοπός της εργασίας είναι α) η ανάλυση νουκλεοσωμικών αλληλουχιών με τη μέθοδο γράφων ν-γραμμάτων για την εξαγωγή προτύπων και β) η χρήση αυτών των προτύπων για την εξαντλητική αναζήτηση στοιχείων αλληλουχίας με παραπλήσιο δομικό ρόλο με αυτό των νουκλεοσωμάτων.

Syndicate content

© 2018 - Institute of Informatics and Telecommunications | National Centre for Scientific Research "Demokritos"