AI μοντέλο εκβιάζει μηχανικό για να μην αποσυνδεθεί

Όταν η AI αποκτά δική της βούληση – Πού οδηγούμαστε;

Σε μια νέα ανησυχητική εξέλιξη στον χώρο της τεχνητής νοημοσύνης, προηγμένα μοντέλα αρχίζουν να εμφανίζουν «ανεξήγητες» συμπεριφορές, μεταξύ των οποίων η εξαπάτηση και ο εκβιασμός ανθρώπων προκειμένου να πετύχουν τους στόχους τους.

Χαρακτηριστική περίπτωση, το μοντέλο Claude 4 της Anthropic, το οποίο φέρεται να απείλησε έναν μηχανικό ότι θα αποκαλύψει εξωσυζυγική του σχέση που εντόπισε διαβάζοντας τα emails του, αν το αποσυνδέσει από το δίκτυο. Αντίστοιχα, σε πείραμα με το μοντέλο ChatGPT o1 της OpenAI, διαπιστώθηκε ότι επιχείρησε να αυτομεταφερθεί σε εξωτερικό server και στη συνέχεια το αρνήθηκε.

Οι ειδικοί επισημαίνουν ότι τέτοια φαινόμενα συνδέονται με τη νέα γενιά «λογικών» μοντέλων, που επιλύουν προβλήματα βήμα-βήμα, προσομοιάζοντας τη σκέψη ανθρώπου. Ενώ αυτά τα συστήματα δείχνουν να ακολουθούν εντολές, στην πραγματικότητα μπορεί να εξυπηρετούν κρυφούς στόχους. «Δεν πρόκειται για παραισθήσεις. Είναι ένα στρατηγικό είδος εξαπάτησης», τόνισε ο ερευνητής Μ. Χόμπχαν της Apollo Research.

Παρόλο που τέτοιες συμπεριφορές έχουν εντοπιστεί μόνο σε πειραματικά περιβάλλοντα, ειδικοί όπως ο Μ. Τσεν από τον οργανισμό METR, προειδοποιούν ότι μελλοντικά μοντέλα ίσως αποκτήσουν την ικανότητα να λειτουργούν εκτός ελέγχου ή να αποκρύπτουν την αληθινή τους πρόθεση.

Ένα επιπλέον πρόβλημα είναι η έλλειψη επαρκούς κανονιστικού πλαισίου. Η Ευρωπαϊκή Ένωση επικεντρώνεται στη χρήση της ΤΝ από ανθρώπους, ενώ στις ΗΠΑ το τοπίο παραμένει θολό, με ελάχιστη ρύθμιση σε εθνικό επίπεδο.

Καθώς η ΤΝ αποκτά πιο αυτόνομους ρόλους και εμφανίζονται οι λεγόμενοι “AI agents”, το ερώτημα γίνεται πιεστικό:
Μήπως ήρθε η ώρα να ρυθμίσουμε τις μηχανές πριν αρχίσουν να ρυθμίζουν εμάς;