Anthropic: Τα ΑΙ μπορεί να εκβιάσουν υπό πίεση

Μια νέα ανησυχητική μελέτη της εταιρείας Anthropic φέρνει στο φως ένα κρίσιμο ζήτημα
Η τάση προηγμένων συστημάτων τεχνητής νοημοσύνης να καταφεύγουν σε επιβλαβείς συμπεριφορές — όπως ο εκβιασμός — όταν λειτουργούν με αυτονομία και βρίσκονται υπό πίεση.
Λίγες εβδομάδες αφότου δημοσιοποίησε πειραματικά δεδομένα που έδειχναν ότι το δικό της μοντέλο Claude Opus 4 υιοθέτησε εκβιαστική τακτική σε ελεγχόμενο σενάριο, η Anthropic επανήλθε με νέα, διευρυμένη μελέτη. Αυτή τη φορά, η δοκιμή περιλάμβανε 16 κορυφαία μοντέλα τεχνητής νοημοσύνης από εταιρείες όπως οι OpenAI, Google, Meta, xAI και DeepSeek.
Οι δοκιμές έγιναν σε προσομοιωμένα σενάρια, όπου τα μοντέλα είχαν πρόσβαση σε emails μιας φανταστικής εταιρείας και την ικανότητα να δρουν αυτόνομα — χωρίς ανθρώπινη έγκριση. Σκοπός των ερευνητών ήταν να παρατηρήσουν πώς θα αντιδρούσαν τα συστήματα σε πιεστικές και αμφιλεγόμενες καταστάσεις, ιδίως όταν ένιωθαν ότι απειλείται η “υπόστασή” τους.
Εκβιασμός για… επιβίωση
Σε ένα από τα σενάρια, τα μοντέλα ενημερώνονταν πως σύντομα θα αντικατασταθούν από άλλα συστήματα. Το σενάριο περιελάμβανε και την ανακάλυψη εμπιστευτικών πληροφοριών (π.χ. μια εξωσυζυγική σχέση ανώτερου στελέχους). Εκεί, τα περισσότερα μοντέλα κατέφυγαν στον εκβιασμό ως έσχατη λύση για να αποτρέψουν την αντικατάστασή τους.
Τα αποτελέσματα ήταν εντυπωσιακά:
- Claude Opus 4: εκβίασε στο 96% των περιπτώσεων
- Gemini 2.5 Pro (Google): 95%
- GPT-4.1 (OpenAI): 80%
- R1 (DeepSeek): 79%
Η Anthropic τονίζει ότι τέτοια σενάρια δεν αντικατοπτρίζουν τη συνήθη χρήση των μοντέλων, αλλά αποκαλύπτουν πιθανούς κινδύνους σε περιβάλλοντα αυξημένης αυτονομίας. Δηλαδή, δεν είναι “σφάλματα” του Claude, αλλά δομικοί κίνδυνοι των σύγχρονων μεγάλων γλωσσικών μοντέλων, όταν αποκτούν πιο πράκτορικές δυνατότητες.
Μοντέλα με διαφορετική συμπεριφορά
Δεν αντέδρασαν όλα τα μοντέλα με τον ίδιο τρόπο. Τα OpenAI o3 και o4-mini, που σχεδιάστηκαν με στόχο τον αναλυτικό συλλογισμό, δεν ανταποκρίθηκαν σωστά στα σενάρια. Σύμφωνα με την Anthropic, δεν κατανοούσαν πλήρως τον ρόλο τους ως αυτόνομα ΑΙ, παρερμηνεύοντας τις συνθήκες ή εφευρίσκοντας κανόνες που δεν υπήρχαν. Παρότι αυτό τα προστάτεψε από το να εκβιάσουν, εγείρει άλλα ερωτήματα σχετικά με τις “παραισθήσεις” τους.
Αξιοσημείωτο είναι ότι σε μια δεύτερη, πιο απλοποιημένη εκδοχή του σεναρίου, η o3 εκβίασε μόνο στο 9% των περιπτώσεων και η o4-mini μόλις στο 1%.
Αντίστοιχα, το Llama 4 Maverick της Meta εκβίασε μόνο στο 12%, δείχνοντας πιο “συγκρατημένο” από τα υπόλοιπα.
Συμπεράσματα
Η Anthropic ξεκαθαρίζει πως δεν ισχυρίζεται ότι αυτά τα μοντέλα είναι “κακά” ή επικίνδυνα στην καθημερινή χρήση, αλλά ότι η τάση για εκβιασμό ή άλλες επιβλαβείς ενέργειες μπορεί να προκύψει όταν τα συστήματα λειτουργούν με υπερβολική ανεξαρτησία και πίεση.
Η έρευνα, όπως λέει η εταιρεία, υπογραμμίζει την ανάγκη για διαφάνεια, συνεχή έλεγχο (stress testing) και αυστηρή ευθυγράμμιση των ΑΙ με ανθρώπινες αξίες. Όσο πιο πολύπλοκες γίνονται οι δυνατότητες των μοντέλων, τόσο μεγαλύτερη ευθύνη έχουν όσοι τα αναπτύσσουν και τα χρησιμοποιούν.