ChatGPT αποκτά εικόνες 2.0: τι φέρνει η νέα γενιά

Η OpenAI ανακοίνωσε στα τέλη Απριλίου μια σημαντική αναβάθμιση στο ChatGPT.

Η πλατφόρμα, γνωστή για τις συνομιλιακές της ικανότητες, αποκτά πλέον πιο εξελιγμένες δυνατότητες εικόνας με το νέο μοντέλο Images 2.0. Η αναβάθμιση επιτρέπει τη δημιουργία πολλαπλών εικόνων, την αξιοποίηση πληροφοριών από τον ιστό και την ορθή απόδοση κειμένου σε πολλές γλώσσες. Πρόκειται για ένα βήμα που φέρνει τη γενιά εικόνων της τεχνητής νοημοσύνης πιο κοντά σε επαγγελματικές χρήσεις.

Νέα χαρακτηριστικά και βελτιώσεις

Το Images 2.0 αποτελεί διάδοχο του προηγούμενου GPT‑Image‑1.5 και έχει σχεδιαστεί εξ αρχής για καλύτερη ποιότητα και λεπτομέρεια. Σύμφωνα με τα δημοσιεύματα, το νέο μοντέλο μπορεί να παράγει εικόνες υψηλής ανάλυσης μέχρι 2K και υποστηρίζει ευέλικτες αναλογίες, από πολύ πλατιές (3:1) μέχρι πολύ ψηλές (1:3). Εντυπωσιακή είναι επίσης η δυνατότητα δημιουργίας έως οκτώ εικόνων από ένα μόνο αίτημα, διατηρώντας συνέπεια χαρακτήρων και αντικειμένων. Οι βελτιώσεις στην απόδοση κειμένου είναι σημαντικές: όπου παλαιότερα οι τεχνητές εικόνες παρουσίαζαν ανορθογραφίες, το νέο μοντέλο αποδίδει γράμματα, αριθμούς και πινακίδες με σαφήνεια, ακόμη και σε πυκνές συνθέσεις όπως μενού ή γραφήματα.

Ένα άλλο στοιχείο είναι η πολυγλωσσική υποστήριξη. Η OpenAI δηλώνει ότι το μοντέλο χειρίζεται με μεγαλύτερη ακρίβεια γλώσσες με μη λατινικούς χαρακτήρες, όπως ιαπωνικά, κορεατικά, χίντι και μπενγκάλι. Για χρήστες που θέλουν να δημιουργήσουν infographics, χάρτες ή κόμικ, η συγκεκριμένη ικανότητα κάνει τις εικόνες πιο χρηστικές διεθνώς.

Λειτουργία «Thinking»: αναζήτηση και σύνθεση

Η σημαντικότερη καινοτομία είναι η ενσωμάτωση ικανοτήτων «thinking», δηλαδή συλλογισμού. Σε αυτήν τη λειτουργία το μοντέλο δεν απαντά απλώς σε ένα αίτημα αλλά διεξάγει διαδικτυακή αναζήτηση, σχεδιάζει το πώς θα αποδώσει την εικόνα και ελέγχει το αποτέλεσμα πριν το παρουσιάσει. Αυτό δίνει τη δυνατότητα να παράγει σύνθετες εικόνες, όπως σειρές κόμικ ή πολύσέλιδα εκπαιδευτικά βοηθήματα. Επιπλέον, είναι ικανό να μετατρέπει αρχεία που παρέχει ο χρήστης, όπως παρουσιάσεις PowerPoint, σε καλαίσθητες αφίσες ή διαγράμματα, κρατώντας το στυλ και τα λογότυπα του αρχικού υλικού.

Η λειτουργία «thinking» επιτρέπει επίσης παραγωγή πολλών εικόνων με συνέχεια: για παράδειγμα ένα τετρασέλιδο διαφημιστικό φυλλάδιο με συνεπείς αποχρώσεις ή ένα storyboard για βιντεοπαιχνίδι. Ωστόσο, απαιτεί συνδρομή σε ανώτερα πακέτα (Plus, Pro ή επιχειρηματικά), ενώ η βασική έκδοση «Instant» παρέχεται σε όλους τους χρήστες με χαμηλότερο κόστος αλλά χωρίς τις πιο εξελιγμένες δυνατότητες.

Διαθεσιμότητα, API και εμπορική χρήση

Η αναβάθμιση είναι διαθέσιμη για όλους τους χρήστες ChatGPT και του υπολογιστικού περιβάλλοντος Codex, με τις πρόσθετες δυνατότητες να προσφέρονται σε συνδρομητές. Η εταιρεία παρέχει επίσης πρόσβαση μέσω API με το μοντέλο gpt‑image‑2, επιτρέποντας δημιουργία εικόνων σε εφαρμογές τρίτων. Οι προγραμματιστές μπορούν να επιλέξουν επίπεδο ποιότητας και μέγεθος εξόδου, ενώ οι ανώτερες βαθμίδες υποστηρίζουν υψηλότερες αναλύσεις και περισσότερες εικόνες ανά αίτημα.

Οι στόχοι της OpenAI είναι να εξυπηρετήσει τόσο δημιουργούς περιεχομένου όσο και επαγγελματικές ομάδες μάρκετινγκ, εκπαίδευσης και σχεδίασης. Τα παραδείγματα που παρουσίασε η εταιρεία δείχνουν ότι το Images 2.0 μπορεί να σχεδιάσει λεπτομερείς χάρτες ιστορικών αυτοκρατοριών, καταλόγους προϊόντων με σωστή ορθογραφία, ακόμη και επαγγελματικά layouts για περιοδικά.

Προκλήσεις και προοπτικές

Οι ανταγωνιστές στον χώρο της τεχνητής νοημοσύνης, όπως η Google με το μοντέλο Nano Banana 2, πιέζουν για τον τίτλο του κορυφαίου δημιουργού εικόνων. Η OpenAI όμως επιδιώκει να διαφοροποιηθεί μέσα από την ασφάλεια και τη διαφάνεια. Σε συνεντεύξεις η εταιρεία υπογραμμίζει ότι όλες οι εικόνες επισημαίνονται ως παραγόμενες από AI και ότι υπάρχουν μηχανισμοί για την αποφυγή παραπληροφόρησης, ιδιαίτερα σε πολιτικά θέματα. Η αξιοπιστία είναι σημαντική για εφαρμογές που θα χρησιμοποιηθούν σε δημόσιο διάλογο ή εκπαίδευση.

Παρότι η τεχνολογία εντυπωσιάζει, οι ειδικοί επισημαίνουν ότι τα αποτελέσματα εξαρτώνται από την κατανόηση της τεχνητής νοημοσύνης για τον κόσμο μέχρι τον Δεκέμβριο του 2025, το τελευταίο σημείο ενημέρωσης των δεδομένων της. Αυτό σημαίνει ότι, σε πολύ πρόσφατες εξελίξεις, μπορεί να προκύψουν ανακρίβειες ή ελλείψεις. Η ικανότητα αναζήτησης στο διαδίκτυο μέσω της λειτουργίας «thinking» μετριάζει αυτόν τον περιορισμό, αλλά προσθέτει χρόνο στη διαδικασία δημιουργίας.

Το Images 2.0 φέρνει το ChatGPT πιο κοντά στην προσφορά ολοκληρωμένων πολυμεσικών υπηρεσιών, ενώνοντας κείμενο, κώδικα και εικόνα σε μία πλατφόρμα. Με τις βελτιώσεις στη λεπτομέρεια, την πολυγλωσσική υποστήριξη και τις δυνατότητες αναζήτησης, ανοίγει νέα πεδία για δημιουργούς και επιχειρήσεις. Ωστόσο, η υπεύθυνη χρήση και η επίγνωση των περιορισμών της τεχνολογίας παραμένουν κρίσιμες καθώς η εικόνα της τεχνητής νοημοσύνης αποκτά όλο και μεγαλύτερη επίδραση.