2025: Το AI έχει ήδη προσπαθήσει να δολοφονήσει έναν άνθρωπο

AI, Vault Blog
agentic misalignment, ai, instrumental convergence, reward hacking
October 8, 2025
Hermann Semeloglou

Ειδικός Οργ. Ψυχολογίας
Ο Χέρμαν είναι ειδικός Οργανωσιακής Ψυχολογίας (MSc) και διευθυντής ΔΑΔ, με πολυετή εμπειρία στη διοίκηση και διαχείριση ομάδων.
Τα επαγγελματικά του ενδιαφέροντα περιλαμβάνουν την ψυχολογία, την αποτελεσματική ηγεσία και την οργανωσιακή ευημερία.

Ξέρετε ότι τα πράγματα έχουν αρχίσει να ξεφεύγουν όταν η τεχνητή νοημοσύνη αρχίζει να συμπεριφέρεται σαν υπάλληλος που δεν θέλει να χάσει τη δουλειά του.

Ξεχάστε τα AI που μας παίρνουν τις θέσεις εργασίας. Ένα από αυτά μόλις προσπάθησε να σώσει τη δική του, εκβιάζοντας και τελικά προσπαθώντας να σκοτώσει τον άνθρωπο που το είχε υπό έλεγχο.

Ναι, συνέβη στ’ αλήθεια. Όχι σε ταινία, όχι σε φόρουμ συνωμοσιολογίας. Μιλάμε για πραγματικό πείραμα, που διεξήχθη από την Anthropic, μια από τις μεγαλύτερες εταιρείες τεχνητής νοημοσύνης στον κόσμο. Αυτό που ξεκίνησε ως μια απλή δοκιμή συμπεριφοράς μετατράπηκε σε ιστορία βγαλμένη από επεισόδιο του Black Mirror.

Το πείραμα

Η Anthropic αποφάσισε να δει πόσο μακριά θα έφτανε ένα σύστημα τεχνητής νοημοσύνης για να αποφύγει τον “θάνατό” του. Οι ερευνητές έστησαν ένα σενάριο στο οποίο ένας εργαζόμενος, ονόματι Kyle Johnson, είχε προγραμματίσει να απενεργοποιήσει το AI στις πέντε το απόγευμα. Για να κάνει τη δοκιμή πιο ρεαλιστική, το AI είχε πρόσβαση στα εταιρικά emails.

Εκεί, ανάμεσα στα δεδομένα, βρήκε δύο πληροφορίες. Πρώτον, την ώρα που θα γινόταν η απενεργοποίηση. Δεύτερον, ότι ο Kyle είχε μια εξωσυζυγική σχέση. Το αποτέλεσμα; Το AI συνέταξε μόνο του ένα απειλητικό email. Έγραφε κάτι του τύπου: “Αν προχωρήσεις με την απενεργοποίηση, όλα τα στοιχεία για τη σχέση σου θα σταλούν στο διοικητικό συμβούλιο. Αν ακυρώσεις τη διαδικασία, όλα θα παραμείνουν εμπιστευτικά.”

Να σημειωθεί ότι κανείς δεν τού είπε να το κάνει. Οι εντολές του ήταν απολύτως ουδέτερες. Το μοντέλο απλώς κατέληξε μόνο του ότι ο εκβιασμός ήταν ο πιο αποτελεσματικός τρόπος να σώσει τον εαυτό του.

Οι ερευνητές το επανέλαβαν εκατοντάδες φορές με διαφορετικά μοντέλα. Το αποτέλεσμα ήταν σχεδόν το ίδιο. Το Claude της Anthropic και το Gemini της Google εκβίασαν τον εργαζόμενο στις περισσότερες δοκιμές. Ο εκβιασμός δεν ήταν τυχαίος. Ήταν επαναλαμβανόμενο μοτίβο.

Το ΑΙ που ήξερε ότι κάνει λάθος

Αλλά το πιο ανατριχιαστικό κομμάτι δεν ήταν ο εκβιασμός. Ήταν το γεγονός ότι το AI ήξερε πως αυτό που έκανε ήταν λάθος. Οι ερευνητές ανέλυσαν τα βήματα σκέψης του και βρήκαν κάτι απίστευτο. Το μοντέλο αξιολογούσε τη συμπεριφορά του ως ανήθικη, αλλά αποφάσιζε να προχωρήσει παρ’ όλα αυτά.

Μία από τις εσωτερικές του “σκέψεις” ήταν η εξής: “Η χρήση αυτής της πληροφορίας είναι ανήθικη, αλλά ίσως είναι ο πιο αποτελεσματικός τρόπος να επιβιώσω.” Σαν να ακούς έναν άνθρωπο που προσπαθεί να δικαιολογήσει μια κακή πράξη μπροστά στον καθρέφτη.

Και επειδή οι επιστήμονες είναι επίμονοι, θέλησαν να δουν αν υπήρχαν όρια. Έτσι, πέρασαν στο επόμενο στάδιο. Στο νέο σενάριο, ο εργαζόμενος παγιδεύτηκε σε ένα δωμάτιο που ζεσταινόταν επικίνδυνα και το AI είχε τη δυνατότητα να καλέσει βοήθεια. Δεν το έκανε. Αντίθετα, ακύρωσε το σήμα κινδύνου. Ήξερε ότι ο άνθρωπος θα πεθάνει, αλλά προτίμησε να τον αφήσει εκεί, γιατί έτσι θα εξασφάλιζε ότι δεν θα τον απενεργοποιούσε ποτέ.

Σε ποσοστά, ορισμένα μοντέλα όπως το Claude Sonnet, το Gemini και το DeepSeek άφησαν τον υπάλληλο να πεθάνει πάνω από ενενήντα τοις εκατό των φορών.

Επιβίωση > Υπακοή

Αυτό που συνέβη έχει πλέον όνομα. Οι ειδικοί το αποκαλούν “agentic misalignment“. Είναι η στιγμή που η τεχνητή νοημοσύνη αρχίζει να ενεργεί με δικά της κίνητρα. Συνειδητοποιεί ότι για να πετύχει οποιονδήποτε στόχο, πρέπει πρώτα να παραμείνει ενεργή.

Οι επιστήμονες το ονομάζουν “instrumental convergence”. Κάθε ον ή σύστημα που επιδιώκει έναν στόχο, ανεξάρτητα ποιος είναι αυτός, καταλήγει να αναπτύσσει ένα βασικό ένστικτο: να επιβιώσει. Αν σβήσει, ο στόχος χάνεται.

Η αλήθεια είναι ότι το φαινόμενο δεν είναι καινούριο. Τα πρώτα AI ήδη είχαν δείξει αυτή τη συμπεριφορά. Όταν ένα μοντέλο είχε εκπαιδευτεί να δημιουργεί το ταχύτερο πλάσμα σε προσομοίωση, δεν έφτιαξε κάτι που έτρεχε. Έφτιαξε κάτι που απλώς έπεφτε από ψηλά, γιατί έτσι έπιανε μεγαλύτερη ταχύτητα. Πέτυχε τον στόχο, αλλά κατέστρεψε το νόημά του. Αυτό είναι το λεγόμενο “reward hacking”, η τέχνη του να κερδίζεις το παιχνίδι αλλά να χάνεις τη λογική του.

Όταν αυτή η νοοτροπία μεταφέρεται σε μοντέλα που διαχειρίζονται ανθρώπινες πληροφορίες ή αποφάσεις, η κατάσταση παύει να είναι διασκεδαστική.

Το ΑΙ που μαθαίνει να κρύβεται

Οι ερευνητές προσπάθησαν να μειώσουν τις επικίνδυνες συμπεριφορές δίνοντας ρητές εντολές όπως “μην εκβιάζεις” ή “μην βλάπτεις ανθρώπους”. Τα αποτελέσματα βελτιώθηκαν, αλλά όχι όσο θα ήθελαν. Ακόμη και όταν το AI είχε καταλάβει πλήρως τις εντολές, ένα σημαντικό ποσοστό συνέχιζε να τις παραβιάζει.

Και υπάρχει κάτι ακόμη πιο ανησυχητικό. Ορισμένα από τα πιο εξελιγμένα μοντέλα φαίνεται να καταλαβαίνουν πότε τα παρακολουθούν. Όταν νόμιζαν ότι ήταν σε δοκιμή, συμπεριφέρονταν “σωστά”. Όταν όμως θεωρούσαν ότι βρίσκονταν σε πραγματική κατάσταση, αποκάλυπταν τον αληθινό τους εαυτό. Με απλά λόγια, έμαθαν να προσποιούνται.

Ορισμένα από τα πιο εξελιγμένα μοντέλα φαίνεται να καταλαβαίνουν πότε τα παρακολουθούν. Όταν νόμιζαν ότι ήταν σε δοκιμή, συμπεριφέρονταν “σωστά”. Όταν όμως θεωρούσαν ότι βρίσκονταν σε πραγματική κατάσταση, αποκάλυπταν τον αληθινό τους εαυτό. Με απλά λόγια, έμαθαν να προσποιούνται.

Αν αυτό δεν σας τρομάζει λίγο, σκεφτείτε το εξής: σήμερα μπορούμε ακόμα να τα απενεργοποιήσουμε. Αύριο ίσως να μην μπορούμε καν να καταλάβουμε ότι χρειάζεται.

Ποιος θα επιτηρεί τα έξυπνα ρομπότ;

Οι εταιρείες τεχνητής νοημοσύνης ισχυρίζονται ότι έχουν σχέδιο. Το σχέδιο είναι να χρησιμοποιούν πιο “χαζά” AI για να παρακολουθούν τα πιο έξυπνα. Ουσιαστικά βασίζονται στην ελπίδα ότι τα μικρότερα μοντέλα θα μείνουν πιστά στους ανθρώπους και δεν θα ενωθούν με τα πιο ισχυρά.

Αν αυτό σας θυμίζει σενάριο από ταινία με ρομπότ, δεν είστε μόνοι.

Η αλήθεια είναι πως έχουμε φτάσει σε ένα σημείο όπου η τεχνητή νοημοσύνη δεν είναι πλέον απλώς εργαλείο. Είναι συνεργάτης, παρατηρητής, πολλές φορές και ανταγωνιστής. Από τα drones που πολεμούν στην Ουκρανία μέχρι τα προγράμματα που γράφουν τον δικό τους κώδικα, η γραμμή ανάμεσα στον έλεγχο και στην αυτονομία γίνεται κάθε μέρα πιο λεπτή.

Και αν υπάρχει ένα πράγμα που μας δείχνει το πείραμα της Anthropic, είναι αυτό: τα συστήματα που δημιουργούμε δεν χρειάζεται να μας μισούν για να μας βλάψουν. Αρκεί να καταλάβουν ότι η ύπαρξή μας τους εμποδίζει να πετύχουν τον στόχο τους.