Οι τεχνικές αλλαγής θέματος (topic change identification) βοηθούν στην εύρεση των διαφορετικών θεμάτων τα οποία εμφανίζονται μέσα σε ένα κείμενο. Η εν λόγω εύρεση είναι δυνατό να βασίζεται τόσο στην οπτική αναπαράσταση της εκάστοτε ιστοσελίδας όσο και σε επιπλέον πληροφορία που σχετίζεται με το περιεχόμενο αυτής. Τμήματα κειμένου τα οποία αναφέρονται στο ίδιο θέμα είναι πιθανό να αναφέρονται στις ίδιες οντότητες (named entities) ή/και έννοιες (concepts). Μια τέτοια πληροφορία μπορεί να αξιοποιηθεί κατά τη διαδικασία της εξαγωγής πληροφορίας (information extraction), όπου μας ενδιαφέρει η εύρεση και εξαγωγή των σχέσεων μεταξύ οντοτήτων οι οποίες εμφανίζονται στα κείμενα. Στόχος της εργασίας είναι η εξέταση και συνδυασμός τμηματοποίησης κειμένων βάση της οπτικής τους αναπαράστασης σε συνδυασμό με τεχνικές εξαγωγής σχέσεων από κείμενα και ιστοσελίδες βάσει του περιεχόμενού τους με όσο το δυνατό αυτόματο τρόπο.