Επεξεργασία μεγάλων δεδομένων παντού
Description:
Η ανάλυση και επεξεργασία δεδομένων μεγάλης κλίμακας συχνά απαιτεί την χρήση συνδυασμού απομακρυσμένων και τοπικών πλατφορμών, υπηρεσιών και υποδομών νέφους (cloud computing). Κάποια από αυτά διαχειρίζονται και παρέχουν δεδομένα, ενώ άλλα μπορεί να προορίζονται για επεξεργασία παρτίδων ή ροών δεδομένων (batch/stream processing). Η μεταφορά δεδομένων μεταξύ τους και η υποβολή εργασιών σε αυτά πραγματοποιείται συχνά με το χέρι ή με εξειδικευμένα εργαλεία ροής εργασίας. Και οι δύο προσεγγίσεις απαιτούν σημαντική γνώση της εσωτερικής λειτουργίας των εμπλεκόμενων υποδομών από τον τελικό χρήστη.
Η εργασία αυτή θα διερευνήσει λύσεις με βάση τον τυπικό τρόπο οργάνωσης αρχείων και φακέλων που υλοποιείται από κάθε λειτουργικό σύστημα, προφέροντας μία ενιαία εικόνα σε τοπικές και απομακρυσμένες ετερογενείς υποδομές. Η εφαρμογή που θα αναπτυχθεί θα επιτρέπει στους χρήστες της να δημιουργούν, να ελέγχουν τοπικά, να εκτελούν και να παρακολουθούν εξ αποστάσεως Hadoop και άλλα είδη εργασιών μέσω φαινομενικά τοπικών αρχείων και φακέλων.