Η Ταυτοποίηση Οντοτήτων αποτελεί μια θεμελιώδη διαδικασία για την ενοποίηση αλληλεπικαλυπτόμενων πηγών πληροφορίας. Εξαιτίας της τετραγωνικής της πολυπλοκότητας, πολλή έρευνα έχει επικεντρωθεί στην βελτίωση της αποτελεσματικότητάς της, έτσι ώστε να εφαρμόζεται σε σύνολα δεδομένων του Web, τα οποία είναι εγγενώς ογκώδη και εξαιρετικά ετερογενή. Η πιο συνηθισμένη προσέγγιση για τη λύση αυτού του προβλήματος είναι η τεχνική του blocking, η οποία ομαδοποιεί όμοιες οντότητες σε blocks και περιορίζει τις συγκρίσεις ανάμεσα σε οντότητες που συμπίπτουν μέσα στα blocks. Στόχος της ομιλίας είναι να αναλύσει τις σημαντικότερες τεχνικές blocking, ξεκινώντας από τις αρχικές μεθόδους, οι οποίες βασίζονται σε πληροφορίες σχήματος και είναι προσαρμοσμένες στην ενσωμάτωση βάσεων δεδομένων. Στη συνέχεια, εξετάζουμε στις προκλήσεις που εισάγονται από τα σημερινά ετερογενή, θορυβώδη και ογκώδη δεδομένα του Web και εξηγούμε γιατί καθιστούν ανεφάρμοστες τις αρχικές τεχνικές blocking. Συνεχίζουμε με την παρουσίαση των νέων τεχνικών που είναι κατάλληλες για δεδομένα μεγάλης κλίμακας. Επίσης, εξηγούμε πώς η αποτελεσματικότητά τους μπορεί να βελτιωθεί με τεχνικές meta-blocking. Τέλος, παρουσιάζουμε ένα framework που υλοποιεί τις περισσότερες από τις κορυφαίες τεχνικές blocking και παρέχει benchmarks για την πειραματική σύγκρισή τους.