διαχείριση δεδομένων

Επεξεργασία μεγάλων δεδομένων παντού

Η ανάλυση και επεξεργασία δεδομένων μεγάλης κλίμακας συχνά απαιτεί την χρήση συνδυασμού απομακρυσμένων και τοπικών πλατφορμών, υπηρεσιών και υποδομών νέφους (cloud computing). Κάποια από αυτά διαχειρίζονται και παρέχουν δεδομένα, ενώ άλλα μπορεί να προορίζονται για επεξεργασία παρτίδων ή ροών δεδομένων (batch/stream processing). Η μεταφορά δεδομένων μεταξύ τους και η υποβολή εργασιών σε αυτά πραγματοποιείται συχνά με το χέρι ή με εξειδικευμένα εργαλεία ροής εργασίας. Και οι δύο προσεγγίσεις απαιτούν σημαντική γνώση της εσωτερικής λειτουργίας των εμπλεκόμενων υποδομών από τον τελικό χρήστη.

Η εργασία αυτή θα διερευνήσει λύσεις με βάση τον τυπικό τρόπο οργάνωσης αρχείων και φακέλων που υλοποιείται από κάθε λειτουργικό σύστημα, προφέροντας μία ενιαία εικόνα σε τοπικές και απομακρυσμένες ετερογενείς υποδομές. Η εφαρμογή που θα αναπτυχθεί θα επιτρέπει στους χρήστες της να δημιουργούν, να ελέγχουν τοπικά, να εκτελούν και να παρακολουθούν εξ αποστάσεως Hadoop και άλλα είδη εργασιών μέσω φαινομενικά τοπικών αρχείων και φακέλων.

Named Entity Recognition and new metrics for big economic data

During the last five years, there is a growing number of initiatives for publishing detailed economic data such as business information (e.g. https://opencorporates.com/), public procurement (e.g. http://platform.yourdatastories.eu/ and https://opentender.eu/).
These initiatives aim to increase the accountability in the context of “follow public money” projects and, at the same time, create opportunities for business intelligence solutions.
The project is focused on two aspects: (1) name entity recognition of the contracting parts in public procurement around the world using Natural Language Processing and Computational Linguistics, Semantic Web and Linked Open Data and Business Registries and Corporate Databases and (2) new metrics for supporting business intelligence solutions such risk factors for public procurement and business survival rate.
Particularly, in the area of NLP, research efforts are focused on addressing data heterogeneities such as misspelling errors and name or acronym mismatches, on the lexical, syntactic and semantic level. These methodologies and practices can be applied to solve general problems and usually follow a traditional approach of text normalization, lexical analysis, post-tagging word according to a grammar and semantic analysis to filter or provide some kind of service such as information extraction, reporting, sentiment analysis or opinion mining. In this context, a series of services (most in the form of an API) such as NLTK for Python, Lingpipe, OpenNLP or Gate for Java, WEKA, the Apache Lucene and Solr search engines have been created in order to serve the creation of natural-language based applications.
Entity reconciliation techniques to uniquely identify resources is also investigated in the field of Semantic Web and Linked Open Data. Specifically, an entity reconciliation process can be briefly defined as the method for looking and mapping two different concepts or entities under a certain threshold. These techniques have been applied to the field of linking entities in the LOD realm, for instance using the DBpedia.
According to the Global Open Data Index* and the Open Company Data Index** only few countries are providing their business registries as high quality open data. But even in the cases where corporate information such as name of company, address, unique identifier of the company, the owner, capital, approved and registration dates are publicly available by the official government, re-using this valuable information can be tedious due to various reasons such as different content, formats and updating process.

*http://index.okfn.org/place/
**http://registries.opencorporates.com/

ΔΥΝΑΜΙΚΑ ΡΥΘΜΙΖΟΜΕΝΕΣ ΣΥΝΟΨΕΙΣ ΤΡΟΧΙΑΣ ΑΝΤΙΚΕΙΜΕΝΩΝ

Με την πρόοδο της τεχνολογίας (κινητές συσκευές, GPS, RFID, κ.ά.) είναι πλέον δυνατή η παρακολούθηση του γεωγραφικού στίγματος μεγάλου πλήθους κινούμενων αντικειμένων (λ.χ., αυτοκινήτων, πλοίων, αεροπλάνων) σε πραγματικό χρόνο με την μορφή ρεύματος δεδομένων (data stream). Ωστόσο, μεγάλα τμήματα της τροχιάς (trajectory) τέτοιων αντικειμένων συχνά εξελίσσονται σχεδόν σε ευθεία γραμμή και με πρακτικά σταθερή ταχύτητα. Επομένως, η συσσώρευση γεωγραφικών στιγμάτων κατά μήκος αυτών των τμημάτων περιττεύει, ενώ ο υπερβολικός όγκος τους μπορεί να δυσχεράνει σημαντικά την έγκαιρη παροχή απαντήσεων σε ερωτήματα (λ.χ. ποια πλοία κινήθηκαν κοντά στο λιμάνι κατά το τελευταίο δεκάλεπτο). Γι’ αυτόν τον λόγο, πρόσφατα έχει προταθεί η δημιουργία συνόψεων κάθε τροχιάς, ανιχνεύοντας σε πραγματικό χρόνο χαρακτηριστικά σημεία (critical points) της εξελισσόμενης πορείας κάθε αντικειμένου. Τέτοια σημεία που δηλώνουν λ.χ. στάση, στροφή ή αργή κίνηση ενός μεμονωμένου αντικειμένου μπορούν να εντοπισθούν βάσει κανόνων που ελέγχουν μεταβολές στο διάνυσμα της ταχύτητάς του. Πειραματικές μελέτες έδειξαν ότι με προσεκτική παραμετροποίηση, ακόμη κι αν απορριφθεί σχεδόν το 99% των πρωτογενών στιγμάτων, η τροχιά μπορεί να ανασυντεθεί με αρκετά ικανοποιητική ακρίβεια βάσει μόνο των χαρακτηριστικών στιγμάτων, επιταχύνοντας σημαντικά την επεξεργασία ερωτημάτων και την online αναγνώριση πιο σύνθετων φαινομένων (λ.χ. πλοία που προσεγγίζουν το ένα το άλλο).

Στόχος της διπλωματικής εργασίας είναι η περαιτέρω βελτίωση της ποιότητας των παραγομένων συνόψεων στα πλαίσια ενός συστήματος που θα διαχειρίζεται τροχιές αντικειμένων με χρήση λογισμικών για μεγάλα δεδομένα (λ.χ. Apache Flink, Kafka, Spark). Η μελέτη προβλέπεται να κινηθεί σε δύο κύριους άξονες:

• Δυνατότητα δυναμικών ρυθμίσεων στις τιμές των παραμέτρων που επηρεάζουν την αναγνώριση των χαρακτηριστικών σημείων. Λ.χ., το κατώφλι της ταχύτητας για την ανίχνευση αργής κίνησης θα πρέπει να ορίζεται διαφορετικά, ανάλογα με τον τύπο του κινούμενου αντικειμένου (π.χ. άλλο κατώφλι για δεξαμενόπλοιο και άλλο ένα μικρό αλιευτικό σκάφος). Επίσης, η γεωγραφική περιοχή στην οποία κινείται κάποιο αντικείμενο μπορεί να επιβάλλει συγκεκριμένους περιορισμούς (λ.χ. όριο ταχύτητας) που τώρα δεν λαμβάνονται υπ’ όψιν. Απλές τεχνικές μηχανικής μάθησης θα μπορούσαν να εφαρμοστούν προκειμένου κάθε αντικείμενο να «μαθαίνει» βάσει του μοτίβου της κινήσεώς του για να μπορεί να προσαρμόζει αναλόγως τις εκάστοτε παραμέτρους.
• Μολονότι οι δραστικά συμπιεσμένες τροχιές καταφέρνουν να αποδώσουν πολύ καλά την κίνηση των αντικειμένων, αρκετά συχνά τυχαίνει να απορρίπτουν στίγματα που θα μπορούσαν να είναι χρήσιμα για την ανίχνευση πιο σύνθετων φαινομένων (λ.χ. πλοία εν κινήσει). Όταν λοιπόν απαιτείται κάτι τέτοιο, ο αλγόριθμος θα πρέπει να μπορεί να «χαλαρώνει» τον βαθμό συμπίεσης, τηρώντας περισσότερα στίγματα με κατάλληλη ρύθμιση στις παραμέτρους ή ακόμη και απενεργοποιώντας προσωρινά κάποιους κανόνες ανίχνευσης χαρακτηριστικών σημείων.

Σχεδιασμός και υλοποίηση μιας DSL για κατανεμημένη στατιστική ανάλυση που διατηρεί την ιδιωτικότητα των δεδομένων

Η εξασφάλιση της ευστάθειας του ηλεκτρικού δικτύου δικαιολογεί την
αυθαίρετη πρόσβαση στα δικά σου δεδομένα κατανάλωσης ρεύματος από την
εταιρία διανομής ηλεκτρικής ενέργειας; Το επόμενο μεγάλο ιατρικό
επίτευγμα δικαιολογεί την αυθαίρετη πρόσβαση στα δικά σου ιατρικά
δεδομένα από τις φαρμακευτικές εταιρίες; Η δραματική μείωση της
κυκλοφοριακής συμφόρησης και των εκπομπών καυσαερίων στις μεγάλες
πόλεις δικαιολογεί την αυθαίρετη πρόσβαση στα δικά σου δεδομένα θέσης
από τον δήμο και τις υπηρεσίες διαχείρισης κυκλοφορίας;

Η κρυπτογραφία μας λέει πως δεν απαιτείται να απαντήσουμε στα παραπάνω
διλήμματα, αλλά μπορούμε να εφαρμόσουμε πρωτόκολλα κατανεμημένου
υπολογισμού των απαιτούμενων στατιστικών δεδομένων, χωρίς ποτέ να
χρειαστούμε πρόσβαση στα επιμέρους, ευαίσθητα data points. Η
διπλωματική θα εξελίξει και συμπληρώσει προηγούμενη σχετική εργασία με
μία domain specific language (DSL) την οποία θα χρησιμοποιεί ο
στατιστικός αναλυτής και θα μεταγλωττίζεται σε μια σειρά από έγκυρους
κατανεμημένους υπολογισμούς του πρωτοκόλλου.

Ενδεικτική βιβλιογραφία

Ενδεικτική βιβλιογραφία

Katerina Zamani, Angelos Charalambidis, Stasinos Konstantopoulos,
Maria Dagioglou, and Vangelis Karkaletsis,
"A Peer-to-Peer Protocol and System Architecture for Privacy-Preserving Statistical Analysis".
Proceedings of Privacy Aware Machine Learning for Health Data Science
(PAML 2016), Salzburg, Austria, 31 August - 2 September 2016.
[Zenodo: 61017]

Βελτιστοποίηση ερωτημάτων σε κατανεμημένες βάσεις δεδομένων

Τα ανοικτά δεδομένα στο Linked Open Data cloud και τον Σημασιολογικό
Ιστό έχουν πλέον φτάσει τους όγκους και τους αριθμούς χρηστών
επιβάλλουν την εφαρμογή τεχνικών βελτιστοποίησης. Πως μπορούν, όμως,
να βελτιστοποιηθούν ερωτήματα στο αποκεντρωμένο περιβάλλον του Web of
Data χωρίς καμία γνώση των στατιστικών στοιχείων που απαιτούνται; Η
διπλωματική θα εξερευνήσει τρόπους να δημιουργηθούν και συντηρηθούν τα
απαραίτητα στατιστικά παρατηρώντας τις απαντήσεις του endpoint σε
προηγούμενα ερωτήματα, δίνοντας την ευκαιρία για πειραματισμό με
τεχνολογίες αιχμής στην μηχανική μάθηση και την τεχνητή νοημοσύνη και
τις εφαρμογές τους στην διαχείριση κατανεμημένων δεδομένων πολύ
μεγάλης κλίμακας.

Δεν απαιτείται καθημερινή παρουσία στο ΕΚΕΦΕ "Δημόκριτος"
αλλά μόνο τακτικές συναντήσεις επίβλεψης.

Ενδεικτική βιβλιογραφία

Katerina Zamani, Angelos Charalambidis, Stasinos Konstantopoulos,
Nickolas Zoulis, Efi Mavroudi,
"Workload-Aware Self-Tuning Histograms for the Semantic Web".
Trans. Large-Scale Data- and Knowledge-Centered Systems 28, Sep 2016.
[Zenodo: 159131]

Angelos Charalambidis, Antonis Troumpoukis and Stasinos
Konstantopoulos, "SemaGrow: Optimizing Federated SPARQL
queries". In Proceedings SEMANTICS 2015, Vienna,
September 2015.

Syndicate content

© 2018 - Institute of Informatics and Telecommunications | National Centre for Scientific Research "Demokritos"