εξαγωγή πληροφορίας

Named Entity Recognition and new metrics for big economic data

During the last five years, there is a growing number of initiatives for publishing detailed economic data such as business information (e.g. https://opencorporates.com/), public procurement (e.g. http://platform.yourdatastories.eu/ and https://opentender.eu/).
These initiatives aim to increase the accountability in the context of “follow public money” projects and, at the same time, create opportunities for business intelligence solutions.
The project is focused on two aspects: (1) name entity recognition of the contracting parts in public procurement around the world using Natural Language Processing and Computational Linguistics, Semantic Web and Linked Open Data and Business Registries and Corporate Databases and (2) new metrics for supporting business intelligence solutions such risk factors for public procurement and business survival rate.
Particularly, in the area of NLP, research efforts are focused on addressing data heterogeneities such as misspelling errors and name or acronym mismatches, on the lexical, syntactic and semantic level. These methodologies and practices can be applied to solve general problems and usually follow a traditional approach of text normalization, lexical analysis, post-tagging word according to a grammar and semantic analysis to filter or provide some kind of service such as information extraction, reporting, sentiment analysis or opinion mining. In this context, a series of services (most in the form of an API) such as NLTK for Python, Lingpipe, OpenNLP or Gate for Java, WEKA, the Apache Lucene and Solr search engines have been created in order to serve the creation of natural-language based applications.
Entity reconciliation techniques to uniquely identify resources is also investigated in the field of Semantic Web and Linked Open Data. Specifically, an entity reconciliation process can be briefly defined as the method for looking and mapping two different concepts or entities under a certain threshold. These techniques have been applied to the field of linking entities in the LOD realm, for instance using the DBpedia.
According to the Global Open Data Index* and the Open Company Data Index** only few countries are providing their business registries as high quality open data. But even in the cases where corporate information such as name of company, address, unique identifier of the company, the owner, capital, approved and registration dates are publicly available by the official government, re-using this valuable information can be tedious due to various reasons such as different content, formats and updating process.

*http://index.okfn.org/place/
**http://registries.opencorporates.com/

Αυτόματος εντοπισμός γλωσσικών δεικτών (δομών και χαρακτηριστικών) ως μέσων έγκαιρης διάγνωσης και πρόγνωσης της νόσου Alzheimer σε πρώιμο στάδιο και συγγενών διαταραχών: Μία διαγλωσσική μελέτη.

Με την παρούσα εργασία θα γίνει προσπάθεια να εντοπιστούν με υπολογιστικές μεθόδους γλωσσικοί δείκτες στον προφορικό και στο γραπτό λόγο των ασθενών σε πρώιμο στάδια της νόσου Alzheimer. Σκοπός της εργασίας αυτής είναι ο αυτόματος εντοπισμός καθολικών/διαγλωσσικών αλλά και ειδικότερων γλωσσικών δομών στις οποίες αναγωρίζονται "αποκλίσεις" από την υγιή γλωσσική χρήση και οι οποίες θα βοηθούσαν στην πρόβλεψη αλλά και στη διάγνωση της νόσου Alzheimer και άλλων συγγενών ασθενειών.

Λέξεις κλειδιά
Μηχανική μάθηση (Ταξινόμηση Κειμένων, Επιλογή Χαρακτηριστικών), Γλωσσολογία (Σημασιολογία, Μορφολογία, Σύνταξη), Υπολογιστική Γλωσσολογία, Εξαγωγή πληροφορίας

Ενδεικτική Βιβλιογραφία:
1. Fraser, K., Meltzer, J., & Rudzicz, F. (2016). Linguistic features identify Alzheimer's disease in narrative speech. Journal of Alzheimer's disease 49, 407-422.
2. Rentoumi, V., Raoufian, L., Ahmed, S., de Jager, C. A., & Garrard, P. (2014). Features and machine learning classification of connected speech samples from patients with autopsy proven Alzheimer's disease with and without additional vascular pathology. Journal of Alzheimer's Disease, 42(s3), S3-S17.

Υπολογιστικές μέθοδοι αξιολόγησης της λειτουργικότητας πρωτεϊνών μειωμένου μεγέθους για χρήση σε γονιδιακές θεραπείες της μυϊκής δυστροφίας Duchenne

Η μυϊκή δυστροφία Duchenne είναι μία ανίατη ασθένεια, η οποία οφείλεται σε μετάλλαξη του γονιδίου της δυστροφίνης. Η μετάλλαξη οδηγεί στην έλλειψη δυστροφίνης και τη σταδιακή καταστροφή των μυών. Πρόσφατα έχουν αναπτυχθεί γονιδιακές θεραπείες για τη νόσο, οι οποίες είχαν θετικά αποτελέσματα σε εργαστηριακές και κλινικές δοκιμές. Μία προσέγγιση αφορά τον εμπλουτισμό των μυϊκών κυττάρων με γονίδια που μπορούν να παράγουν λειτουργική δυστροφίνη. Το γενετικό υλικό μεταφέρεται στα κύτταρα με τη βοήθεια αδενο-συσχετιζόμενων ιών, οι οποίοι όμως δεν μπορούν μεταφέρουν το πλήρες γονίδιο της δυστροφίνης. Συνεπώς είναι απαραίτητος ο καθορισμός παραλλαγών του γονιδίου που είναι μικρότερες σε μέγεθος, αλλά λειτουργικές. Αυτές είναι γνωστές ως μικροδυστροφίνες.
Στα πλαίσια της προτεινόμενης εργασίας, θα αναπτυχθεί υπολογιστική μέθοδος πρόβλεψης της λειτουργικότητας μικροδυστροφινών. Η μέθοδος αυτή θα βασιστεί στη γνώση που έχουμε για τη δομή και τη λειτουργία της δυστροφίνης, αλλά και σε ανάλυση περιπτώσεων μικροδυστρφινών που έχουν αξιολογηθεί ως περισσότερο ή λιγότερο λειτουργικές.

Υπολογισμός και ανάλυση τιμών εδαφικής υγρασίας

Η υγρασία του έδάφους είναι απαραίτητη παράμετρος στα συστήματα πρόγνωσης πλημμυρών και ξηρασίας καθώς και στα μοντέλα εκτίμησης υδρολογικών παραμέτρων. Το SMOS (Soil Moisture and Ocean Salinity) δορυφορικό σύστημα καταγράφει την ‘θερμοκρασία φωτεινότητας’, που αντιστοιχεί στην εκπεμπόμενη ακτινοβολία των μικροκυμάτων η οποία μπορεί να συσχετιστεί με την υγρασία του εδάφους
Αντικείμενο της εργασίας είναι η επεξεργασία εικόνων SMOS για τον υπολογισμό της εδαφικής υγρασίας πριν και μετά την εμφάνιση πλημμυρικών φαινομένων.

Αναγνώριση συγγραφέα (author identification) στα κοινωνικά δίκτυα με τεχνικές μηχανικής μάθησης

H στυλομετρία (computational stylometry) έχει ως στόχο να ανακτήσει χρήσιμα χαρακτηριστικά κειμένων από το ύφος της γραφής, με στόχο την αυτόματη ταξινόμησή τους ως προς τον συγγραφέα τους. Η υφολογική πληροφορία εξάγεται μέσω της ανάλυσης του κειμένου με τεχνολογίες επεξεργασίας φυσικής γλώσσας, με την αυτόματη ανάλυση της διακύμανσης των γλωσσικών χαρακτηριστικών.
Υπάρχουσες στατιστικές τεχνικές αναγνωρίζουν με επιτυχία την ταυτότητα του συγγραφέα, το φύλο, τη μητρική γλώσσα , ακόμη και αν ένας συγγραφέας έχει άνοια. Πρόσφατα έχει υπάρξει αυξανόμενο ενδιαφέρον για την εφαρμογή μεθόδων αναγνώρισης συγγραφέα στα κοινωνικά δίκτυα, π.χ. ανίχνευση εθνικότητας συγγραφέα στα μέσα κοινωνικής δικτύωσης, φύλου και ηλικίας. Στα κοινωνικά δίκτυα, η στυλομετρία αποτελεί πολύ μεγάλη πρόκληση. Οι δημοσιεύσεις στα κοινωνικά δίκτυα γίνονται συνήθως μέσω tweets, σχόλιων, blogs, κλπ. Η μη τυπική χρήση της γλώσσας είναι συχνό φαινόμενο σε τέτοιου είδους δημοσιεύσεις, και καθιστά δύσκολη την επεξεργασία φυσικής γλώσσας. Επίσης, με δεδομένη την ταχύτητα με την οποία δημοσιεύεται νέο περιεχόμενο, η ανάγκη για σταδιακή επανεκπαίδευση του αλγόριθμου μηχανικής μάθησης καθίσταται απαραίτητη, προκειμένου να λάβει υπόψη του νέες παραλλαγές της χρήσης της γλώσσας που συνδέονται με τα διάφορα χαρακτηριστικά του κειμένου.
Η έρευνα σε αυτόν τον τομέα είναι ακόμα στα αρχικά της στάδια και οι περισσότερες υπάρχουσες προσεγγίσεις εστιάζουν μόνο σε ένα ή δύο χαρακτηριστικά, όπως η ηλικία και / ή το φύλο.
Ο στόχος της παρούσας εργασίας είναι μελετηθεί ο χώρος της αναγνώρισης συγγραφέα στα κοινωνικά δίκτυα και να προταθούν νέες προσεγγίσεις, οι οποίες θα λαμβάνουν υπόψη τη φύση των δεδομένων, με έμφαση στην συνεχή παραγωγή νέου περιεχομένου.

Απεικόνιση επικινδυνότητας σε πλατφόρμα GIS

Το εργαστήριο Αξιοπιστίας Συστημάτων και Βιομηχανικής Ασφάλειας του ΕΚΕΦΕ «ΔΗΜΟΚΡΙΤΟΣ» ανέπτυξε έναν κώδικα, για τον υπολογισμό των επιπτώσεων από μεγάλα βιομηχανικά ατυχήματα (διαρροή τοξικών και ευφλέκτων ουσιών). Τα αποτελέσματα των υπολογισμών των μοντέλων είναι συνήθως καμπύλες ίσης Ατομικής Διακινδύνευσης (Isorisk curves) με αντίστοιχη πληροφορία (x, y, Risk, δηλ συντεταγμένες θέσης και μιά τιμή πιθανότητας, 0 -1), ή πληροφορία Κοινωνικής Διακινδυνευσης (αριθμός ατόμων σε κίνδυνο).
Εκείνο που επιδιώκεται από την προτεινόμενη Εργασία είναι η παρουσίαση και απεικόνιση των αποτελεσμάτων της επικινδυνότητας (Risk) από μεγάλα βιομηχανικά ή άλλα ατυχήματα σε περιβάλλον GIS. Το σύστημα GIS θα περιέχει πληροφορίες των εγκαταστάσεων (π.χ. ποσότητες ουσιών, αριθμός εργαζομένων) αλλά και πληθυσμιακά δεδομένα της περιοχής, οδούς διαφυγής, καθώς επίσης και την επικινδυνότητα από ατυχήματα (ατομική και ομαδική). Το σύστημα GIS μπορεί να χρησιμοποιηθεί για τη διαχείριση των ατυχημάτων και εύρεση πολιτικών ανάπτυξης γύρω από τις βιομηχανικές περιοχές (Land Use Planning).

Ενσωμάτωση πληροφορίας ήχου, εικόνας και κειμένου σε σύστημα συστάσεων κινηματογραφικών ταινιών

Η εργασία αυτή επικεντρώνεται στην ανάπτυξη ενός συστήματος συστάσεων κινηματογραφικών ταινιών, με έμφαση στην χρήση πληροφορίας που προέρχεται από το ηχητικό περιεχόμενο και το περιεχόμενο των υποτίτλων.

Τα συστήματα συστάσεων χρησιμοποιούνται τα τελευταία χρόνια σε τομείς όπως η ψυχαγωγία, το ηλεκτρονικό εμπόριο αλλά και σε ευρείες διαδικτυακές υπηρεσίες. Σκοπός τους είναι να προτείνουν στον "πελάτη" της αντίστοιχης εφαρμογής τα προϊόντα (βιβλία, ταινίες, ηλεκτρονικές συσκευές, κα) που "ταιριάζουν" στο προφίλ του και στις προτιμήσεις του. Στις περισσότερες περιπτώσεις τα συστήματα αυτά βασίζονται σε συνεργατικό φιλτράρισμα (collaborative filtering), δηλαδή προτείνουν βασισμένα σε προτιμήσεις παρόμοιων χρηστών.

Στα πλαίσια της παρούσας εργασίας, θα επικεντρωθούμε, εκτός από την συνεργατική πληροφορία που προέρχεται από τις "συσχετίσεις" των χρηστών, και σε πληροφορία περιεχομένου. Συγκεκριμένα, θα ερευνηθούν στατιστικές συσχετίσεις στις κατανομές ηχητικών χαρακτηριστικών και κειμένου με τις προτιμήσεις των χρηστών. Έτσι, θα (α) εξάγουμε γνώση για το πώς ενδέχεται κάποιες επιλογές χρηστών για συγκεκριμένες ταινίες να σχετίζονται με χαρακτηριστικά του ήχου και των υποτίτλων των ταινιών αυτών και (β) θα χρησιμοποιήσουμε την συσχέτιση αυτή για να βελτιώσουμε την σύσταση.

Χρήσιμα links:

Αναγνώριση και εξαγωγή μεταφοράς και γενικά μη-κυριολεκτικής σημασίας

Σκοπός της διπλωματικής είναι η ανάπτυξη μεθόδων αναγνώρισης και
εξαγωγής μεταφοράς και γενικά μη-κυριολεκτικής χρήσης
λέξεων. Ειδικότερα, έμφαση δίνεται στον εντοπισμό κριτηρίων διάκρισης
που δεν απαιτούν "βαρείς" συντακτικούς και σημασιολογικούς
πόρους (π.χ., συντακτικός αναλυτής, framenet) και μπορούν να
εφαρμοστούν σε γλώσσες όπου τέτοιοι πόροι δεν είναι διαθέσιμοι.

Δεν απαιτείται καθημερινή παρουσία στο ΕΚΕΦΕ Δημόκριτος, αλλά τακτικές
συναντήσεις επίβλεψης.

Ενδεικτική βιβλιογραφία

Konstantinos Pechlivanis and Stasinos Konstantopoulos, "Corpus
Based Methods for Learning Models of Metaphor in Modern Greek".
In Proceedings 3rd International Conference on Statistical
Language and Speech Processing (SLSP 2015)
, Budapest, 24-26
November 2015.

Ekaterina Shutova, Simone Teufel and Anna Korhonen, Statistical
Metaphor Processing. Computational Linguistics 39(2), 2012.
[fulltext]

Σύγκριση κειμένων με χρήση γράφων εγγύτητας και εξαγωγής πληροφορίας

Η εξαγωγή πληροφορίας (information extraction) φαίνεται να κερδίζει έδαφος ως εργαλείο υποστήριξης άλλων διαδικασιών ανάλυσης κειμένων (π.χ. εξαγωγή περιλήψεων, κατηγοριοποίηση κειμένων). Σκοπός της εργασίας είναι να συνδυαστούν μέθοδοι εξόρυξης πληροφορίας με μία καινοτομική αναπαράσταση - γράφοι εγγύτητας - που επιτρέπει το συνδυασμό δομημένης (π.χ. αποτέλεσμα αναγνώρισης οντοτήτων) και μη δομημένης πληροφορίας (απλό κείμενο) για τους σκοπούς εργασίιών όπως: κατηγοριοποίηση κειμένων, αξιολόγηση περιλήψεων, εξόρυξη γνώμης (opinion mining).

Ανάλυση ονομάτων φανταστικών χαρακτήρων

Θα μπορούσε ο Hannibal Lecter να είναι ο καλός; ο Norman Bates; ο Darth Vader; Και αν όχι, γιατί; Η διπλωματική αυτή αναζητά κανονικότητες στην ονοματοδοσία φανταστικών χαρακτήρων και ειδικότερα συσχετισμούς ανάμεσα στο ρόλο που διαδραματίζουν οι διάφοροι χαρακτήρες και στο όνομά τους.

Η διπλωματική μπορεί να περιλαμβάνει τόσο την χρήση στατιστικών και άλλων μεθόδων για την αναζήτηση κανονικότητας σε δεδομένα, όσο και την ίδια την δημιουργία των δεδομένων καθώς δεν υπάρχει σχετική βάση. Η συλλογή των δεδομένων θα βασίζεται στην εφαρμογή μεθόδων εξαγωγής πληροφορίας σε δημόσια διαθέσιμους πόρους σχετικούς με ταινίες (π.χ. IMDB) και λογοτεχνικά κείμενα (π.χ. Project Gutenberg).

Δεν απαιτείται καθημερινή παρουσία στο ΕΚΕΦΕ "Δημόκριτος", αλλά τακτικές συναντήσεις επίβλεψης.

Ενδεικτική βιβλιογραφία

Eirini Florou and Stasinos Konstantopoulos, A quantitative and qualitative analysis of Nordic surnames. In Proceedings of the 18th Nordic Conference of Computational Linguistics (NODALIDA 2011), May 11-13, 2011, Riga, Latvia. Published in NEALT Proceedings Series Vol. 11.

Stasinos Konstantopoulos, Learning language identification models: a
comparative analysis of the distinctive features of names and common
words. In: Proceedings of the 7th International Conference on Language
Resources and Evaluation (LREC-2010), Valletta, Malta, 19-21 May 2010.
[fulltext]

Syndicate content

© 2018 - Institute of Informatics and Telecommunications | National Centre for Scientific Research "Demokritos"