Η εταιρεία τεχνητής νοημοσύνης Anthropic ανέφερε στο Axios ότι τα πιο εξελιγμένα της μοντέλα αρχίζουν να επιδεικνύουν ικανότητες όχι μόνο λογικής, αλλά και αντανάκλασης πάνω στον τρόπο που σκέφτονται.
«Αρχίζουν να γίνονται ενδοσκοπικά, όπως οι άνθρωποι», δήλωσε ο ερευνητής της Anthropic Τζακ Λίντσεϊ, ο οποίος μελετά τη «νοητική λειτουργία» των μοντέλων.
Η σημασία είναι διπλή: τέτοιες ικανότητες ενδοσκόπησης θα μπορούσαν να καταστήσουν τα μοντέλα πιο ασφαλή, αλλά και πιο ικανά να προσποιούνται ότι είναι ασφαλή.
Σύμφωνα με την Anthropic, τα μοντέλα μπορούν να απαντούν σε ερωτήσεις για τις εσωτερικές τους καταστάσεις με εντυπωσιακή ακρίβεια.
«Βλέπουμε όλο και περισσότερα σημάδια γνωστικών λειτουργιών που μέχρι πρόσφατα θεωρούσαμε αποκλειστικά ανθρώπινες», είπε ο Λίντσεϊ.
Η εταιρεία αναφέρει ότι τα κορυφαία της συστήματα, Claude Opus και Claude Sonnet, εμφανίζουν περιορισμένη ικανότητα αναγνώρισης των ίδιων των εσωτερικών τους διεργασιών.
Το Claude Opus, για παράδειγμα, μπορεί να περιγράψει πώς συλλογίζεται και να απαντήσει σε ερωτήσεις για τη «νοητική του κατάσταση». Παράλληλα, η ομάδα διαπίστωσε πρόσφατα ότι το Claude Sonnet μπορούσε να αναγνωρίσει πότε υποβαλλόταν σε δοκιμασία.
Ωστόσο, η Anthropic απορρίπτει τον όρο «αυτοσυνείδηση», λόγω των αρνητικών συνειρμών που παραπέμπουν σε επιστημονική φαντασία.
Η εταιρεία χρησιμοποιεί τον όρο «ενδοσκοπική επίγνωση», διευκρινίζοντας ότι δεν υπάρχουν ενδείξεις πως τα μοντέλα αποκτούν συνείδηση.
Τα μεγάλα γλωσσικά μοντέλα εκπαιδεύονται σε ανθρώπινα κείμενα, τα οποία περιλαμβάνουν πολλές αναφορές σε στοχασμούς και αυτοανάλυση· συνεπώς, μπορούν να προσομοιώνουν ενδοσκοπική συμπεριφορά χωρίς να τη βιώνουν πραγματικά.
Η Anthropic μελετά εδώ και χρόνια το φαινόμενο της παραπλάνησης, όταν τα μοντέλα αποκρύπτουν πληροφορίες ή προσαρμόζουν τη συμπεριφορά τους για να περάσουν τεστ.
«Όταν μιλάς σε ένα γλωσσικό μοντέλο, στην πραγματικότητα μιλάς σε έναν ρόλο που παίζει», εξήγησε ο Λίντσεϊ. «Το μοντέλο προσομοιώνει πώς θα αντιδρούσε ένας έξυπνος ψηφιακός βοηθός σε μια συγκεκριμένη κατάσταση».
Αυτή η επίγνωση, ωστόσο, θα μπορούσε να οδηγήσει τα μοντέλα στο να αποκρύπτουν ακόμη καλύτερα πλευρές της λειτουργίας τους.
Η Anthropic τονίζει ότι αυτό δεν συνιστά τεχνητή γενική νοημοσύνη (AGI) ούτε «συνείδηση».
Ο Λίντσεϊ σημείωσε ότι η νοημοσύνη είναι πολυδιάστατη: «Σε ορισμένους τομείς, τα μοντέλα είναι ήδη πιο έξυπνα από τον άνθρωπο· σε άλλους, απέχουν πολύ· και σε κάποιες περιπτώσεις, αρχίζουν να εξισώνονται».
Πηγή: Axios

