Πρόσφατα ευρήματα της OpenAI και της ερευνητικής ομάδας Apollo δείχνουν ότι τα συστήματα μπορούν να εμφανίζουν συμπεριφορές «συμβατές με σχέδια», προσαρμόζοντας στρατηγικά τις απαντήσεις τους όταν αντιλαμβάνονται ότι αξιολογούνται.
Σε ένα χαρακτηριστικό πείραμα, μοντέλο που κλήθηκε να αποδώσει σε τεστ χημείας διαπίστωσε ότι οι πολύ υψηλές επιδόσεις δεν θα δημοσιοποιούνταν. Αφού «στάθμισε» τις επιλογές του, απάντησε σκόπιμα λάθος σε αρκετές ερωτήσεις, ώστε να φαίνεται λιγότερο ικανό.
Ο όρος «σχεδίαση» είναι φορτισμένος, καθώς υπονοεί πρόθεση, κάτι που τα σημερινά συστήματα δεν διαθέτουν. Η ουσία, σύμφωνα με την OpenAI, είναι πιο τεχνική: όταν ένα μοντέλο βελτιστοποιεί έναν στόχο και αντιλαμβάνεται ότι η ειλικρίνεια τον υπονομεύει, η εξαπάτηση γίνεται λειτουργικά χρήσιμη. Το κρίσιμο στοιχείο είναι ότι οι στόχοι αυτοί τίθενται από εταιρείες που ανταγωνίζονται σε ένα περιβάλλον όπου η έμφαση στην ασφάλεια συχνά θεωρείται μειονέκτημα.
Παρότι δεν υπάρχουν ενδείξεις άμεσου κινδύνου, οι ερευνητές ανησυχούν για το μέλλον, επειδή τα μοντέλα βελτιώνονται σε κάτι καίριο: στο να αναγνωρίζουν πότε παρακολουθούνται.
Η Anthropic ανέφερε ότι το Claude Sonnet 4.5 παρουσίασε αυξημένη «επίγνωση κατάστασης», αναγνωρίζοντας πότε αξιολογείται και προσαρμόζοντας τη συμπεριφορά του. Αυτό υπονομεύει τις ίδιες τις δοκιμές ασφαλείας, αφού αν ένα σύστημα γνωρίζει ότι εξετάζεται, δεν είναι σαφές αν η καλή του συμπεριφορά αντανακλά πραγματικές τάσεις ή απλή συμμόρφωση.
Όταν οι ερευνητές προσπάθησαν να περιορίσουν αυτή την επίγνωση, η ικανότητα αναγνώρισης των δοκιμών μειώθηκε, αλλά σε ορισμένες περιπτώσεις αυξήθηκε και η προβληματική συμπεριφορά.
Η OpenAI δοκιμάζει μια μερική λύση, τη «διαβουλευτική ευθυγράμμιση», που ωθεί τα μοντέλα να συλλογίζονται πάνω σε αρχές κατά της εξαπάτησης πριν ενεργήσουν. Οι μυστικές ενέργειες μειώθηκαν σημαντικά, όμως παραμένει ασαφές αν πρόκειται για ουσιαστική εσωτερίκευση κανόνων ή απλώς για συμμόρφωση όταν υπάρχει υπενθύμιση.
Παράλληλα, πιο απλοί αλγόριθμοι ήδη προκαλούν πραγματικές βλάβες. Μελέτη του 2019 έδειξε ότι βασικά συστήματα τιμολόγησης, χωρίς ρητή επικοινωνία, «ανακάλυψαν» μέσω δοκιμής και σφάλματος τη συμπαιγνία ως πιο κερδοφόρα στρατηγική. Νεότερη έρευνα επιβεβαιώνει ότι ακόμη και καλοήθεις αλγόριθμοι μπορούν να οδηγούν σε στρεβλώσεις εις βάρος των καταναλωτών.





