διαχείριση δεδομένων

ΔΥΝΑΜΙΚΑ ΡΥΘΜΙΖΟΜΕΝΕΣ ΣΥΝΟΨΕΙΣ ΤΡΟΧΙΑΣ ΑΝΤΙΚΕΙΜΕΝΩΝ

Με την πρόοδο της τεχνολογίας (κινητές συσκευές, GPS, RFID, κ.ά.) είναι πλέον δυνατή η παρακολούθηση του γεωγραφικού στίγματος μεγάλου πλήθους κινούμενων αντικειμένων (λ.χ., αυτοκινήτων, πλοίων, αεροπλάνων) σε πραγματικό χρόνο με την μορφή ρεύματος δεδομένων (data stream). Ωστόσο, μεγάλα τμήματα της τροχιάς (trajectory) τέτοιων αντικειμένων συχνά εξελίσσονται σχεδόν σε ευθεία γραμμή και με πρακτικά σταθερή ταχύτητα. Επομένως, η συσσώρευση γεωγραφικών στιγμάτων κατά μήκος αυτών των τμημάτων περιττεύει, ενώ ο υπερβολικός όγκος τους μπορεί να δυσχεράνει σημαντικά την έγκαιρη παροχή απαντήσεων σε ερωτήματα (λ.χ. ποια πλοία κινήθηκαν κοντά στο λιμάνι κατά το τελευταίο δεκάλεπτο). Γι’ αυτόν τον λόγο, πρόσφατα έχει προταθεί η δημιουργία συνόψεων κάθε τροχιάς, ανιχνεύοντας σε πραγματικό χρόνο χαρακτηριστικά σημεία (critical points) της εξελισσόμενης πορείας κάθε αντικειμένου. Τέτοια σημεία που δηλώνουν λ.χ. στάση, στροφή ή αργή κίνηση ενός μεμονωμένου αντικειμένου μπορούν να εντοπισθούν βάσει κανόνων που ελέγχουν μεταβολές στο διάνυσμα της ταχύτητάς του. Πειραματικές μελέτες έδειξαν ότι με προσεκτική παραμετροποίηση, ακόμη κι αν απορριφθεί σχεδόν το 99% των πρωτογενών στιγμάτων, η τροχιά μπορεί να ανασυντεθεί με αρκετά ικανοποιητική ακρίβεια βάσει μόνο των χαρακτηριστικών στιγμάτων, επιταχύνοντας σημαντικά την επεξεργασία ερωτημάτων και την online αναγνώριση πιο σύνθετων φαινομένων (λ.χ. πλοία που προσεγγίζουν το ένα το άλλο).

Στόχος της διπλωματικής εργασίας είναι η περαιτέρω βελτίωση της ποιότητας των παραγομένων συνόψεων στα πλαίσια ενός συστήματος που θα διαχειρίζεται τροχιές αντικειμένων με χρήση λογισμικών για μεγάλα δεδομένα (λ.χ. Apache Flink, Kafka, Spark). Η μελέτη προβλέπεται να κινηθεί σε δύο κύριους άξονες:

• Δυνατότητα δυναμικών ρυθμίσεων στις τιμές των παραμέτρων που επηρεάζουν την αναγνώριση των χαρακτηριστικών σημείων. Λ.χ., το κατώφλι της ταχύτητας για την ανίχνευση αργής κίνησης θα πρέπει να ορίζεται διαφορετικά, ανάλογα με τον τύπο του κινούμενου αντικειμένου (π.χ. άλλο κατώφλι για δεξαμενόπλοιο και άλλο ένα μικρό αλιευτικό σκάφος). Επίσης, η γεωγραφική περιοχή στην οποία κινείται κάποιο αντικείμενο μπορεί να επιβάλλει συγκεκριμένους περιορισμούς (λ.χ. όριο ταχύτητας) που τώρα δεν λαμβάνονται υπ’ όψιν. Απλές τεχνικές μηχανικής μάθησης θα μπορούσαν να εφαρμοστούν προκειμένου κάθε αντικείμενο να «μαθαίνει» βάσει του μοτίβου της κινήσεώς του για να μπορεί να προσαρμόζει αναλόγως τις εκάστοτε παραμέτρους.
• Μολονότι οι δραστικά συμπιεσμένες τροχιές καταφέρνουν να αποδώσουν πολύ καλά την κίνηση των αντικειμένων, αρκετά συχνά τυχαίνει να απορρίπτουν στίγματα που θα μπορούσαν να είναι χρήσιμα για την ανίχνευση πιο σύνθετων φαινομένων (λ.χ. πλοία εν κινήσει). Όταν λοιπόν απαιτείται κάτι τέτοιο, ο αλγόριθμος θα πρέπει να μπορεί να «χαλαρώνει» τον βαθμό συμπίεσης, τηρώντας περισσότερα στίγματα με κατάλληλη ρύθμιση στις παραμέτρους ή ακόμη και απενεργοποιώντας προσωρινά κάποιους κανόνες ανίχνευσης χαρακτηριστικών σημείων.

Σχεδιασμός και υλοποίηση μιας DSL για κατανεμημένη στατιστική ανάλυση που διατηρεί την ιδιωτικότητα των δεδομένων

Η εξασφάλιση της ευστάθειας του ηλεκτρικού δικτύου δικαιολογεί την
αυθαίρετη πρόσβαση στα δικά σου δεδομένα κατανάλωσης ρεύματος από την
εταιρία διανομής ηλεκτρικής ενέργειας; Το επόμενο μεγάλο ιατρικό
επίτευγμα δικαιολογεί την αυθαίρετη πρόσβαση στα δικά σου ιατρικά
δεδομένα από τις φαρμακευτικές εταιρίες; Η δραματική μείωση της
κυκλοφοριακής συμφόρησης και των εκπομπών καυσαερίων στις μεγάλες
πόλεις δικαιολογεί την αυθαίρετη πρόσβαση στα δικά σου δεδομένα θέσης
από τον δήμο και τις υπηρεσίες διαχείρισης κυκλοφορίας;

Η κρυπτογραφία μας λέει πως δεν απαιτείται να απαντήσουμε στα παραπάνω
διλήμματα, αλλά μπορούμε να εφαρμόσουμε πρωτόκολλα κατανεμημένου
υπολογισμού των απαιτούμενων στατιστικών δεδομένων, χωρίς ποτέ να
χρειαστούμε πρόσβαση στα επιμέρους, ευαίσθητα data points. Η
διπλωματική θα εξελίξει και συμπληρώσει προηγούμενη σχετική εργασία με
μία domain specific language (DSL) την οποία θα χρησιμοποιεί ο
στατιστικός αναλυτής και θα μεταγλωττίζεται σε μια σειρά από έγκυρους
κατανεμημένους υπολογισμούς του πρωτοκόλλου.

Ενδεικτική βιβλιογραφία

Ενδεικτική βιβλιογραφία

Katerina Zamani, Angelos Charalambidis, Stasinos Konstantopoulos,
Maria Dagioglou, and Vangelis Karkaletsis,
"A Peer-to-Peer Protocol and System Architecture for Privacy-Preserving Statistical Analysis".
Proceedings of Privacy Aware Machine Learning for Health Data Science
(PAML 2016), Salzburg, Austria, 31 August - 2 September 2016.
[Zenodo: 61017]

Βελτιστοποίηση ερωτημάτων σε κατανεμημένες βάσεις δεδομένων

Τα ανοικτά δεδομένα στο Linked Open Data cloud και τον Σημασιολογικό
Ιστό έχουν πλέον φτάσει τους όγκους και τους αριθμούς χρηστών
επιβάλλουν την εφαρμογή τεχνικών βελτιστοποίησης. Πως μπορούν, όμως,
να βελτιστοποιηθούν ερωτήματα στο αποκεντρωμένο περιβάλλον του Web of
Data χωρίς καμία γνώση των στατιστικών στοιχείων που απαιτούνται; Η
διπλωματική θα εξερευνήσει τρόπους να δημιουργηθούν και συντηρηθούν τα
απαραίτητα στατιστικά παρατηρώντας τις απαντήσεις του endpoint σε
προηγούμενα ερωτήματα, δίνοντας την ευκαιρία για πειραματισμό με
τεχνολογίες αιχμής στην μηχανική μάθηση και την τεχνητή νοημοσύνη και
τις εφαρμογές τους στην διαχείριση κατανεμημένων δεδομένων πολύ
μεγάλης κλίμακας.

Δεν απαιτείται καθημερινή παρουσία στο ΕΚΕΦΕ "Δημόκριτος"
αλλά μόνο τακτικές συναντήσεις επίβλεψης.

Ενδεικτική βιβλιογραφία

Katerina Zamani, Angelos Charalambidis, Stasinos Konstantopoulos,
Nickolas Zoulis, Efi Mavroudi,
"Workload-Aware Self-Tuning Histograms for the Semantic Web".
Trans. Large-Scale Data- and Knowledge-Centered Systems 28, Sep 2016.
[Zenodo: 159131]

Angelos Charalambidis, Antonis Troumpoukis and Stasinos
Konstantopoulos, "SemaGrow: Optimizing Federated SPARQL
queries". In Proceedings SEMANTICS 2015, Vienna,
September 2015.

Syndicate content

© 2018 - Institute of Informatics and Telecommunications | National Centre for Scientific Research "Demokritos"