γλωσσική τεχνολογία

Εποπτευόμενη ανάγνωση για διάγνωση της δυσαναγνωσίας και βελτίωση της αναγνωστικής ευχέρειας

Το πρόβλημα
Η δυσαναγνωσία είναι μια μαθησιακή δυσκολία. Αναφέρεται σε παιδιά με φυσιολογική νοημοσύνη, που αν και παρακολουθούν κανονικά τα μαθήματα της τάξης τους παρουσιάζουν δυσκολίες στην αναγνωστική ικανότητα και έλλειψη κατανόησης των όσων έχουν διαβαστεί. Μελέτες δείχνουν πως η εγκεφαλική λειτουργία που ευθύνεται για την διαφορετική αντίληψη των πληροφοριών στον εγκέφαλο των παιδιών με δυσκολία στην ανάγνωση, επιδέχεται αλλαγή ώστε τα παιδιά αυτά να μπορούν να βελτιώσουν σημαντικά την αναγνωστική τους ικανότητα.

Η πρόταση
Ανάπτυξη εφαρμογής για smartphone/tablet (android) μέσα από την οποία ο χρήστης θα διαβάζει κείμενα. Σκοπός της εφαρμογής είναι α) η βοήθεια προς τον ειδικό ώστε να κάνει καλύτερη διάγνωση τυχόν δυσκολιών στην ανάγνωση, αλλά και β) η βοήθεια προς τον αναγνώστη στην κατεύθυνση βελτίωσης της αναγνωστικής του ευχέρειας.

Α) Διάγνωση
Η εφαρμογή θα μπορεί να αξιολογεί εάν υφίσταται δυσκολία στην ανάγνωση, μέσα από μετρήσεις, όπως
α) μέτρηση χρόνου (πόσο αργός είναι ο ρυθμός ανάγνωσης κάποιου σε σύγκριση με τον μέσο όρο του φυσιολογικού πληθυσμού),
β) μέτρηση λαθών (θα ανιχνεύονται λάθη κατά την ανάγνωση - από απλές μετρήσεις όπως ο αριθμός/ποσοστό λέξεων που διαβάστηκαν λάθος, ως περισσότερο σύνθετες, όπως η αναγνώριση διαφορετικών τύπων αναγνωστικών λαθών, π.χ. αριθμός/ποσοστό παράλειψης φωνήματος, πρόσθεσης φωνήματος, αντικατάστασης φωνήματος, αντιστροφής φωνήματος, επανάληψη φωνήματος ή λέξης, πλήθος δισταγμών - συλλαβισμών, παρατονισμών, αυτοδιορθώσεων, κλπ.).

Β) Βοήθεια / Παρέμβαση
Κάποιος με δυσκολία στην ανάγνωση, που προσπαθεί να βελτιώσει την αναγνωστική του ευχέρεια, θέλει να μπορεί να παρακολουθεί την ατομική του πρόοδο. Η καταγραφή της προόδου ενισχύει σημαντικά το προσωπικό κίνητρο αυτο-βελτίωσης. Είτε θέλει κάποιος να εξασκηθεί ατομικά, είτε συμμετέχει σε πρόγραμμα παρέμβασης με τη βοήθεια ειδικού παιδαγωγού, η συστηματική καταγραφή των επιδόσεων και, κατά συνέπεια, η παρακολούθηση της προόδου του, μπορεί να αποδειχθεί μία πολύπλοκη διαδικασία. Η προτεινόμενη εφαρμογή σκοπό έχει να αυτοματοποιήσει την διαδικασία καταγραφής, να απλοποιήσει τη σύγκριση των μετρήσεων μέσω μεθόδων οπτικοποίησης (γραφικές παραστάσεις) και άρα να διευκολύνει σημαντικά την αξιολόγηση της προόδου στην ευχέρεια ανάγνωσης.

Τα κείμενα προτείνονται από την εφαρμογή - άρα θα είναι κείμενα γνωστά σε αυτήν. H ανάγνωση θα είναι εποπτευόμενη (supervised reading), δηλ. η εφαρμογή θα πρέπει να παρακολουθεί τον χρήστη, χρωματίζοντας π.χ. κάθε φορά τη συγκεκριμένη λέξη την οποία αυτός διαβάζει. Ένα καλό τέτοιο παράδειγμα έχουμε στο site http://www.readspeaker.com/, όπου αν δοκιμάσουμε την εφαρμογή μηχανικής ανάγνωσης ReadSpeaker, βλέπουμε κάθε λέξη να χρωματίζεται καθώς την διαβάζει η εφαρμογή. Στη δική μας περίπτωση θέλουμε το ανάποδο: η εφαρμογή να ακούει την ανθρώπινη φωνή και να χρωματίζει την κάθε λέξη την ώρα που αυτή εκφέρεται από τον αναγνώστη.

Άρα, θα πρόκειται για μία εφαρμογή με ένα κομμάτι STT (Speech To Text), αφού θα πρέπει να αναγνωρίσει την λέξη (ή το φώνημα) που εκφέρεται κάθε στιγμή από τον αναγνώστη και να κάνει match με την αντίστοιχη λέξη / φώνημα μέσα στο κείμενο.

Στόχος είναι η εφαρμογή να μπορεί να πραγματοποιεί αυτόματα διαδικασίες, όπως
• να υπολογίζει ρυθμό ανάγνωσης (words/min) για 1η, 2η και 3η ανάγνωση,
• να μετράει αναγνωστικά λάθη (και ίσως να τα ομαδοποιεί σε κατηγορίες),
• να οπτικοποιεί την πρόοδο του αναγνώστη σε κατανοητές γραφικές παραστάσεις.

Λέξεις κλειδιά: μαθησιακές δυσκολίες, δυσαναγνωσία, δυσλεξία, speech-to-text (stt).

Automated evaluation of generated headlines

This project deals with developing a platform for the automated evaluation of headlines. The platform will contain several metrics, which will give a score for each generated headline given its document and gold-standard headlines (manually created). The platform may include existing metrics (like Rouge), extended metrics (which integrate several existing approaches and based on the existing ones), and novel metrics (which will be elaborated during the project).

Additional Keywords: Headline generation, ROUGE, text similarity, summarization, KL-divergence, VSM, word embedding

Αυτόματος εντοπισμός γλωσσικών δεικτών (δομών και χαρακτηριστικών) ως μέσων έγκαιρης διάγνωσης και πρόγνωσης της νόσου Alzheimer σε πρώιμο στάδιο και συγγενών διαταραχών: Μία διαγλωσσική μελέτη.

Με την παρούσα εργασία θα γίνει προσπάθεια να εντοπιστούν με υπολογιστικές μεθόδους γλωσσικοί δείκτες στον προφορικό και στο γραπτό λόγο των ασθενών σε πρώιμο στάδια της νόσου Alzheimer. Σκοπός της εργασίας αυτής είναι ο αυτόματος εντοπισμός καθολικών/διαγλωσσικών αλλά και ειδικότερων γλωσσικών δομών στις οποίες αναγωρίζονται "αποκλίσεις" από την υγιή γλωσσική χρήση και οι οποίες θα βοηθούσαν στην πρόβλεψη αλλά και στη διάγνωση της νόσου Alzheimer και άλλων συγγενών ασθενειών.

Λέξεις κλειδιά
Μηχανική μάθηση (Ταξινόμηση Κειμένων, Επιλογή Χαρακτηριστικών), Γλωσσολογία (Σημασιολογία, Μορφολογία, Σύνταξη), Υπολογιστική Γλωσσολογία, Εξαγωγή πληροφορίας

Ενδεικτική Βιβλιογραφία:
1. Fraser, K., Meltzer, J., & Rudzicz, F. (2016). Linguistic features identify Alzheimer's disease in narrative speech. Journal of Alzheimer's disease 49, 407-422.
2. Rentoumi, V., Raoufian, L., Ahmed, S., de Jager, C. A., & Garrard, P. (2014). Features and machine learning classification of connected speech samples from patients with autopsy proven Alzheimer's disease with and without additional vascular pathology. Journal of Alzheimer's Disease, 42(s3), S3-S17.

Αναγνώριση συγγραφέα (author identification) στα κοινωνικά δίκτυα με τεχνικές μηχανικής μάθησης

H στυλομετρία (computational stylometry) έχει ως στόχο να ανακτήσει χρήσιμα χαρακτηριστικά κειμένων από το ύφος της γραφής, με στόχο την αυτόματη ταξινόμησή τους ως προς τον συγγραφέα τους. Η υφολογική πληροφορία εξάγεται μέσω της ανάλυσης του κειμένου με τεχνολογίες επεξεργασίας φυσικής γλώσσας, με την αυτόματη ανάλυση της διακύμανσης των γλωσσικών χαρακτηριστικών.
Υπάρχουσες στατιστικές τεχνικές αναγνωρίζουν με επιτυχία την ταυτότητα του συγγραφέα, το φύλο, τη μητρική γλώσσα , ακόμη και αν ένας συγγραφέας έχει άνοια. Πρόσφατα έχει υπάρξει αυξανόμενο ενδιαφέρον για την εφαρμογή μεθόδων αναγνώρισης συγγραφέα στα κοινωνικά δίκτυα, π.χ. ανίχνευση εθνικότητας συγγραφέα στα μέσα κοινωνικής δικτύωσης, φύλου και ηλικίας. Στα κοινωνικά δίκτυα, η στυλομετρία αποτελεί πολύ μεγάλη πρόκληση. Οι δημοσιεύσεις στα κοινωνικά δίκτυα γίνονται συνήθως μέσω tweets, σχόλιων, blogs, κλπ. Η μη τυπική χρήση της γλώσσας είναι συχνό φαινόμενο σε τέτοιου είδους δημοσιεύσεις, και καθιστά δύσκολη την επεξεργασία φυσικής γλώσσας. Επίσης, με δεδομένη την ταχύτητα με την οποία δημοσιεύεται νέο περιεχόμενο, η ανάγκη για σταδιακή επανεκπαίδευση του αλγόριθμου μηχανικής μάθησης καθίσταται απαραίτητη, προκειμένου να λάβει υπόψη του νέες παραλλαγές της χρήσης της γλώσσας που συνδέονται με τα διάφορα χαρακτηριστικά του κειμένου.
Η έρευνα σε αυτόν τον τομέα είναι ακόμα στα αρχικά της στάδια και οι περισσότερες υπάρχουσες προσεγγίσεις εστιάζουν μόνο σε ένα ή δύο χαρακτηριστικά, όπως η ηλικία και / ή το φύλο.
Ο στόχος της παρούσας εργασίας είναι μελετηθεί ο χώρος της αναγνώρισης συγγραφέα στα κοινωνικά δίκτυα και να προταθούν νέες προσεγγίσεις, οι οποίες θα λαμβάνουν υπόψη τη φύση των δεδομένων, με έμφαση στην συνεχή παραγωγή νέου περιεχομένου.

Ενσωμάτωση πληροφορίας ήχου, εικόνας και κειμένου σε σύστημα συστάσεων κινηματογραφικών ταινιών

Η εργασία αυτή επικεντρώνεται στην ανάπτυξη ενός συστήματος συστάσεων κινηματογραφικών ταινιών, με έμφαση στην χρήση πληροφορίας που προέρχεται από το ηχητικό περιεχόμενο και το περιεχόμενο των υποτίτλων.

Τα συστήματα συστάσεων χρησιμοποιούνται τα τελευταία χρόνια σε τομείς όπως η ψυχαγωγία, το ηλεκτρονικό εμπόριο αλλά και σε ευρείες διαδικτυακές υπηρεσίες. Σκοπός τους είναι να προτείνουν στον "πελάτη" της αντίστοιχης εφαρμογής τα προϊόντα (βιβλία, ταινίες, ηλεκτρονικές συσκευές, κα) που "ταιριάζουν" στο προφίλ του και στις προτιμήσεις του. Στις περισσότερες περιπτώσεις τα συστήματα αυτά βασίζονται σε συνεργατικό φιλτράρισμα (collaborative filtering), δηλαδή προτείνουν βασισμένα σε προτιμήσεις παρόμοιων χρηστών.

Στα πλαίσια της παρούσας εργασίας, θα επικεντρωθούμε, εκτός από την συνεργατική πληροφορία που προέρχεται από τις "συσχετίσεις" των χρηστών, και σε πληροφορία περιεχομένου. Συγκεκριμένα, θα ερευνηθούν στατιστικές συσχετίσεις στις κατανομές ηχητικών χαρακτηριστικών και κειμένου με τις προτιμήσεις των χρηστών. Έτσι, θα (α) εξάγουμε γνώση για το πώς ενδέχεται κάποιες επιλογές χρηστών για συγκεκριμένες ταινίες να σχετίζονται με χαρακτηριστικά του ήχου και των υποτίτλων των ταινιών αυτών και (β) θα χρησιμοποιήσουμε την συσχέτιση αυτή για να βελτιώσουμε την σύσταση.

Χρήσιμα links:

Αναγνώριση και εξαγωγή μεταφοράς και γενικά μη-κυριολεκτικής σημασίας

Σκοπός της διπλωματικής είναι η ανάπτυξη μεθόδων αναγνώρισης και
εξαγωγής μεταφοράς και γενικά μη-κυριολεκτικής χρήσης
λέξεων. Ειδικότερα, έμφαση δίνεται στον εντοπισμό κριτηρίων διάκρισης
που δεν απαιτούν "βαρείς" συντακτικούς και σημασιολογικούς
πόρους (π.χ., συντακτικός αναλυτής, framenet) και μπορούν να
εφαρμοστούν σε γλώσσες όπου τέτοιοι πόροι δεν είναι διαθέσιμοι.

Δεν απαιτείται καθημερινή παρουσία στο ΕΚΕΦΕ Δημόκριτος, αλλά τακτικές
συναντήσεις επίβλεψης.

Ενδεικτική βιβλιογραφία

Konstantinos Pechlivanis and Stasinos Konstantopoulos, "Corpus
Based Methods for Learning Models of Metaphor in Modern Greek".
In Proceedings 3rd International Conference on Statistical
Language and Speech Processing (SLSP 2015)
, Budapest, 24-26
November 2015.

Ekaterina Shutova, Simone Teufel and Anna Korhonen, Statistical
Metaphor Processing. Computational Linguistics 39(2), 2012.
[fulltext]

Εκμάθηση στρατηγικών διαλόγου σε πραγματικό χρόνο για προσαρμοζόμενα διαλογικά συστήματα

Τα προσαρμοζόμενα διαλογικά συστήματα είναι η εξέλιξη των "στατικών" διαλογικών συστημάτων. Μπορούν να προσαρμόζονται στο χρήστη και στο γενικότερο περιβάλλον τους με διάφορους τρόπους, όπως για παράδειγμα να αναγνωρίζουν και να εκφράζουν συναισθήματα, να χρησιμοποιούν διάφορους "τύπους" γλώσσας (αργκό/απλή κτλ) ανάλογα με το επίπεδο γνώσεων του χρήστη κ.α.. Ένα σημαντικό κομμάτι ενός προσαρμοζόμενου διαλογικού συστήματος είναι η εκμάθηση του τι πρέπει να πει στο χρήστη για να ικανοποιήσει τους στόχους του. Τα τελευταία χρόνια γίνεται προσπάθεια αυτόματης εκμάθησης στρατηγικών διαλόγου, και στην εργασία αυτή θα επικεντρωθούμε στην εκμάθηση στρατηγικών σε πραγματικό χρόνο, με σκοπό το σύστημα να μαθαίνει καθώς αλληλεπιδρά με τους χρήστες.

Σύγκριση κειμένων με χρήση γράφων εγγύτητας και εξαγωγής πληροφορίας

Η εξαγωγή πληροφορίας (information extraction) φαίνεται να κερδίζει έδαφος ως εργαλείο υποστήριξης άλλων διαδικασιών ανάλυσης κειμένων (π.χ. εξαγωγή περιλήψεων, κατηγοριοποίηση κειμένων). Σκοπός της εργασίας είναι να συνδυαστούν μέθοδοι εξόρυξης πληροφορίας με μία καινοτομική αναπαράσταση - γράφοι εγγύτητας - που επιτρέπει το συνδυασμό δομημένης (π.χ. αποτέλεσμα αναγνώρισης οντοτήτων) και μη δομημένης πληροφορίας (απλό κείμενο) για τους σκοπούς εργασίιών όπως: κατηγοριοποίηση κειμένων, αξιολόγηση περιλήψεων, εξόρυξη γνώμης (opinion mining).

Εξαγωγή πληροφορίας από έγγραφα μέσω επαγωγικής εξαγωγής γραμματικών ανεξάρτητων από συμφραζόμενα (context-free grammars)

Το Εργαστήριο έχει αναπτύξει έναν αλγόριθμο επαγωγικής εξαγωγής γραμματικών ανεξάρτητων από συμφραζόμενα. Σκοπός της εργασίας αυτής είναι η αξιολόγηση του αλγορίθμου αυτού στην εργασία της εξαγωγής πληροφορίας από κείμενα της Ελληνικής και της Αγγλικής γλώσσας καθώς και η σύγκριτική αξιολόγηση του αλγορίθμου με έτοιμα συστήματα που βασίζονται σε άλλες τεχνικές μηχανικής μάθησης.

Ανάπτυξη συντακτικού αναλυτή γραμματικών ανεξάρτητων από συμφραζόμενα (context-free grammars), σε συνδυασμό με μεθόδους μάθησης τέτοιων γραμματικών

Το Εργαστήριο έχει αναπτύξει έναν αλγόριθμο επαγωγικής εξαγωγής γραμματικών ανεξάρτητων από συμφραζόμενα. Κατά την εφαρμογή του αλγορίθμου αυτού σε διάφορα προβλήματα, προκύπτουν σημαντικές δυσκολίες εξαιτίας της ακαταλληλότητας των υπαρχόντων συντακτικών αναλυτών ή/και της υπολογιστικής τους πολυπλοκότητας. Σκοπός της εργασίας αυτής είναι η ανάπτυξη ενός συντακτικού αναλυτή προσαρμοσμένου στις ανάγκες των μεθόδων μάθησης γραμματικών και ο συνδυασμός των δύο μεθόδων σε ένα κοινό σύστημα. Το σύστημα αυτό θα αξιολογηθεί σε εφαρμογές επεξεργασίας φυσικής γλώσσας που μελετώνται στο εργαστήριο.

Syndicate content

© 2018 - Institute of Informatics and Telecommunications | National Centre for Scientific Research "Demokritos"