Οι τεχνολογικές εταιρείες στρέφονται πλέον σε μια παλαιότερη πηγή γνώσης – τις βιβλιοθήκες – για να ενισχύσουν την εκπαίδευση των chatbot τεχνητής νοημοσύνης (AI), καθώς τα δεδομένα από το διαδίκτυο αποδεικνύονται ανεπαρκή για την κατανόηση της ανθρωπότητας. Σχεδόν ένα εκατομμύριο βιβλία, που χρονολογούνται από τον 15ο αιώνα και σε 254 γλώσσες, από τη συλλογή του Πανεπιστημίου του Χάρβαρντ, διατίθενται από σήμερα σε ερευνητές AI μέσω του συνόλου δεδομένων Institutional Books 1.0, το οποίο περιλαμβάνει πάνω από 394 εκατομμύρια σαρωμένες σελίδες.
Επιπλέον, η Δημόσια Βιβλιοθήκη της Βοστώνης ετοιμάζεται να ανοίξει τις συλλογές της με παλαιές εφημερίδες και κυβερνητικά έγγραφα, προσφέροντας μια νέα πηγή δεδομένων για την εκπαίδευση AI.
Η κίνηση αυτή αποτελεί «θησαυρό δεδομένων» για εταιρείες όπως η Microsoft και η OpenAI, που αντιμετωπίζουν νομικές διαμάχες από συγγραφείς, όπως η Σάρα Σίλβερμαν, για τη χρήση έργων που προστατεύονται από πνευματικά δικαιώματα χωρίς συγκατάθεση. «Η χρήση δεδομένων δημοσίου κτήματος είναι μια συνετή απόφαση, καθώς είναι λιγότερο αμφιλεγόμενη από το περιεχόμενο που προστατεύεται ακόμη από πνευματικά δικαιώματα», δήλωσε ο Μπέρτον Ντέιβις, αναπληρωτής γενικός σύμβουλος της Microsoft.
Η πρωτοβουλία Institutional Data Initiative του Χάρβαρντ, που υποστηρίζεται από δωρεές της Microsoft και της OpenAI, συνεργάζεται με βιβλιοθήκες παγκοσμίως για να προετοιμάσει τις ιστορικές τους συλλογές για χρήση από AI, διασφαλίζοντας παράλληλα οφέλη για τις ίδιες τις βιβλιοθήκες και τις κοινότητές τους. «Προσπαθούμε να μεταφέρουμε μέρος της εξουσίας από την τρέχουσα στιγμή της AI πίσω σε αυτά τα ιδρύματα», ανέφερε η Αριστάνα Σκούρτας από το Library Innovation Lab του Χάρβαρντ. «Οι βιβλιοθηκονόμοι ήταν πάντα οι φύλακες των δεδομένων και της πληροφορίας».
Η συλλογή περιλαμβάνει έργα όπως τις χειρόγραφες σκέψεις ενός Κορεάτη ζωγράφου του 15ου αιώνα για την καλλιέργεια λουλουδιών και δέντρων, καθώς και εκτενείς συλλογές του 19ου αιώνα για λογοτεχνία, φιλοσοφία, νομική και γεωργία. Αυτά τα δεδομένα, που προέρχονται από πρωτότυπες πηγές, υπόσχονται να βελτιώσουν την ακρίβεια και την αξιοπιστία των συστημάτων AI, σε αντίθεση με τα δεδομένα από το διαδίκτυο, όπως το Wikipedia ή τα μέσα κοινωνικής δικτύωσης, που συχνά περιλαμβάνουν πειρατικά έργα.
Ωστόσο, η χρήση αυτών των δεδομένων δεν είναι χωρίς προκλήσεις. Η Κρίστι Μουκ από το Library Innovation Lab του Χάρβαρντ προειδοποίησε ότι τα τεράστια σύνολα δεδομένων μπορεί να περιέχουν ξεπερασμένες ή επιβλαβείς απόψεις, όπως ρατσιστικές αφηγήσεις ή απαξιωμένες επιστημονικές θεωρίες, απαιτώντας προσεκτική καθοδήγηση για υπεύθυνη χρήση. Επιπλέον, η συνεργασία της Βιβλιοθήκης της Οξφόρδης Bodleian, που έλαβε δωρεά 50 εκατομμυρίων δολαρίων από την OpenAI, επικεντρώνεται στην ψηφιοποίηση σπάνιων κειμένων, ενώ η Δημόσια Βιβλιοθήκη της Βοστώνης διασφαλίζει ότι τα ψηφιοποιημένα δεδομένα της θα είναι διαθέσιμα σε όλους, αντανακλώντας τη δέσμευση των βιβλιοθηκών για δημόσια πρόσβαση.
Η πρωτοβουλία αυτή σηματοδοτεί μια στροφή προς τη χρήση υψηλής ποιότητας, ηθικά προερχόμενων δεδομένων για την εκπαίδευση AI, ενισχύοντας παράλληλα τον ρόλο των βιβλιοθηκών ως θεματοφυλάκων της γνώσης στην ψηφιακή εποχή.