Παρά τις πρόσφατες εντυπωσιακές εξελίξεις στην ικανότητα των μεγάλων γλωσσικών μοντέλων (όπως το ChatGPT) να μας βοηθούν στη σκέψη, την έρευνα, τη σύνοψη και την κατανόηση σύνθετων και τεχνικών κειμένων, πώς ανταποκρίνονται όταν πρόκειται για την κατανόηση της αφήγησης και της λογοτεχνίας;
Τα ερωτήματα γύρω από την ερμηνευτική λεπτότητα και τις αποχρώσεις της κατανόησης παραμένουν ανοιχτά.
Ερευνητές του Columbia Engineering επιχειρούν να απαντήσουν σε αυτά τα ζητήματα μέσα από ένα νέο, ηθικά θεμελιωμένο πλαίσιο αξιολόγησης. Η εργασία τους, που δημοσιεύτηκε στο arXiv, τιμήθηκε με το Βραβείο Καλύτερης Εργασίας το 2025 στο συνέδριο Transactions of the Association of Computational Linguistics (TACL), αναδεικνύοντας τη μεθοδολογική της αυστηρότητα και τη συμβολή της στον τομέα.
"Πριν μπορέσουμε να εμπιστευτούμε πραγματικά τις αναλυτικές ικανότητες των μεγάλων γλωσσικών μοντέλων, χρειαζόμαστε προσεκτικά τεκμήρια για το τι μπορούν και τι δεν μπορούν να κάνουν", δήλωσε η Kathleen McKeown, καθηγήτρια Πληροφορικής (Henry and Gertrude Rothschild Professor) στο Columbia Engineering. Μαζί με την αναπληρώτρια καθηγήτρια Lydia Chilton ηγήθηκαν της ερευνητικής ομάδας.
"Αν τα LLM πρόκειται να λειτουργήσουν ως εργαλεία για την ανθρώπινη διερεύνηση, πρέπει πρώτα να κατανοήσουμε το βάθος αλλά και τα όρια των αναλυτικών τους δυνατοτήτων, συμπεριλαμβανομένων τομέων όπως η αφήγηση και η λογοτεχνία".
Ένα νέο πλαίσιο αξιολόγησης
Η μελέτη αξιολόγησε την απόδοση προηγμένων γλωσσικών μοντέλων - GPT-4, Claude-2.1 και LLaMA-2-70B - στο έργο της σύνοψης σύντομης λογοτεχνίας. Σε αντίθεση με πολλές προηγούμενες αξιολογήσεις που βασίζονταν σε δημόσια διαθέσιμα κείμενα (τα οποία ενδέχεται να περιλαμβάνονται στα δεδομένα εκπαίδευσης των μοντέλων), η συγκεκριμένη έρευνα εισήγαγε ένα ελεγχόμενο, πρωτότυπο σύνολο δεδομένων.
Οι ερευνητές συνεργάστηκαν απευθείας με δημοσιευμένους συγγραφείς, οι οποίοι προσέφεραν αδημοσίευτα διηγήματά τους. Στη συνέχεια, οι ίδιοι οι συγγραφείς αξιολόγησαν την ποιότητα των περιλήψεων που παρήγαγαν τα μοντέλα.
Χρησιμοποιώντας τόσο ποσοτικές όσο και ποιοτικές μεθόδους, βασισμένες στη θεωρία της αφήγησης, η ανάλυση έδειξε ότι και τα τρία μοντέλα παρουσίασαν σφάλματα πιστότητας σε πάνω από το 50% των περιπτώσεων, ενώ δυσκολεύτηκαν συστηματικά με τη λεπτομέρεια και την ερμηνεία σύνθετων υπονοούμενων ή μη γραμμικών αφηγηματικών δομών.
"Τα μοντέλα μπορεί να φαίνεται ότι κατανοούν μια ιστορία, όμως τα αποτελέσματά τους είναι τελικά απρόβλεπτα, καθώς βασίζονται σε πιθανότητες", δήλωσε η Melanie Subbiah, κύρια συγγραφέας της μελέτης και υποψήφια διδάκτορας στο Columbia.
"Ένας εκπαιδευμένος ανθρώπινος αναλυτής λογοτεχνίας θα παρήγαγε σταθερά ισχυρές ερμηνείες, ενώ ακόμη και το καλύτερο μοντέλο βρίσκεται περίπου στο 50/50 - σαν ρίψη νομίσματος - ως προς το αν θα δώσει μια αξιόπιστη ανάλυση για κάθε συγκεκριμένη ιστορία".
Τα ευρήματα υπογραμμίζουν τους περιορισμούς των σύγχρονων LLM σε πνευματικά και δημιουργικά πεδία που απαιτούν προσεκτική ανάγνωση και ερμηνευτική ευαισθησία.
Αν και τέτοια συστήματα μπορούν να λειτουργήσουν ως χρήσιμα εργαλεία, οι ερευνητές προειδοποιούν ότι δεν πρέπει να χρησιμοποιούνται ως βασικό μέσο για σύνθετη λογοτεχνική ανάλυση ή άλλες εργασίες που απαιτούν βαθιά κατανόηση συμφραζομένων. Όπως επισημαίνει η Subbiah, η μελέτη τους "ενισχύει τη σημασία αξιολογήσεων που είναι ανθρωποκεντρικές και βασίζονται στην εξειδικευμένη γνώση".
Πέρα από τα εμπειρικά ευρήματα
Η ηθική διάσταση βρέθηκε στο επίκεντρο της μελέτης. Οι συγγραφείς που συμμετείχαν είχαν πλήρη ενημέρωση για τον τρόπο χρήσης των έργων και των σχολίων τους, αμείφθηκαν για τη συμβολή τους, ενώ η πνευματική τους ιδιοκτησία προστατεύθηκε αυστηρά. Η έρευνα εστίασε συνειδητά στην κατανόηση και ανάλυση της αφήγησης - και όχι στην παραγωγή κειμένου - αναδεικνύοντας τη δέσμευση των ερευνητών σε υπεύθυνες και δεοντολογικές πρακτικές.
Παράλληλα, η μελέτη εισάγει μια καινοτόμο μεθοδολογία αξιολόγησης γλωσσικών μοντέλων, βασισμένη σε υλικό που αποκλείεται να έχει χρησιμοποιηθεί κατά την εκπαίδευσή τους.
Σε συνεργασία με ειδικούς του χώρου - εν προκειμένω επαγγελματίες συγγραφείς - οι ερευνητές προτείνουν ένα πλαίσιο που επιτρέπει πιο αξιόπιστη αποτίμηση των ερμηνευτικών και αναλυτικών δυνατοτήτων των μοντέλων. Το μοντέλο αυτό μπορεί να αποτελέσει σημείο αναφοράς για μελλοντικές έρευνες, τόσο στην κατανόηση της αφήγησης όσο και σε άλλες μορφές αξιολόγησης που βασίζονται στην ανθρώπινη εξειδίκευση.
"Στόχος είναι η ανθρώπινη, εξειδικευμένη κρίση να καθοδηγεί τον τρόπο αξιολόγησης των LLM, διατηρώντας τον άνθρωπο στο επίκεντρο της τεχνολογικής εξέλιξης", σημειώνει η Subbiah.
Bernadette O. Young (techxplore.com)
Επιμέλεια/Απόδοση: Ν.Χ.
Add comment
Comments