H Google παρουσίασε σήμερα το νέο μοντέλο γλωσσικής τεχνητής νοημοσύνης Gemini από την ομάδα του ελληνικής καταγωγής Demis Hassabis στη Deepmind, ισχυρίζεται ότι ξεπερνά το ChatGPT στα περισσότερα τεστ και εμφανίζει μάλιστα «προηγμένη συλλογιστική».
Το μοντέλο διατίθεται σε τρεις εκδόσεις και είναι “πολυτροπικό”, πράγμα που σημαίνει ότι μπορεί να κατανοήσει και να παράγει κείμενο, ήχο, εικόνες, βίντεο και κώδικα προγραμματισμού ταυτόχρονα, κάτι που δεν ισχύει για το ChatGPT, παρότι είναι εξαιρετικό στη παραγωγή κώδικα.
Η ισχυρή έκδοση Ultra ξεπέρασε όλα τα υπάρχοντα μοντέλα AI, συμπεριλαμβανομένου του πιο ισχυρού μοντέλου του ChatGPT, GPT-4, σε 30 από τις 32 δοκιμές αναφοράς, συμπεριλαμβανομένης της συλλογιστικής και της κατανόησης εικόνας. Το μοντέλο Pro ξεπέρασε το GPT-3.5, το μοντέλο που υποστηρίζει την έκδοση ελεύθερης πρόσβασης του ChatGPT, σε έξι από τις οκτώ δοκιμές.
H έκδοση Pro είναι άμεσα προσβάσιμη στο chatbot Bard της Google και η έκδοση Nano θα είναι διαθέσιμη σε κινητά τηλέφωνα Android της Google, ξεκινώντας από το Google Pixel 8 Pro. Η έκδοση Ultra θα είναι διαθέσιμη στο Bard αρχές του 2024 προφανώς με κάποια συνδρομή μια και θα έχει πλούσιες δυνατότητες ειδικά στον τομέα της αυξημένης αντίληψης.
Το Gemini, το οποίο θα ενσωματωθεί στα προϊόντα της Google, συμπεριλαμβανομένης της μηχανής αναζήτησής της, κυκλοφορεί από σήμερα αρχικά σε περισσότερες από 170 χώρες με τη μορφή αναβάθμισης στο chatbot της Google, Bard.
Ωστόσο, η αναβάθμιση του Bard δεν είναι ακόμα διαθέσιμη στην ΕΕ και το Ηνωμένο Βασίλειο καθώς η Google έχει ζητήσει έγκριση από τις αντίστοιχες ρυθμιστικές αρχές.
Ο Demis Hassabis, διευθύνων σύμβουλος της DeepMind, της μονάδας της Google με έδρα το Λονδίνο που ανέπτυξε το Gemini, δήλωσε: «Ήταν το πιο περίπλοκο έργο στο οποίο έχουμε εργαστεί ποτέ, θα έλεγα το μεγαλύτερο εγχείρημα. Ήταν μια τεράστια προσπάθεια».
Η Google ανέφερε ότι το Ultra ήταν το πρώτο μοντέλο τεχνητής νοημοσύνης που ξεπέρασε ανθρώπινους εμπειρογνώμονες, με βαθμολογία 90%, σε ένα τεστ πολλαπλών εργασιών που ονομάζεται MMLU, το οποίο καλύπτει 57 θέματα, συμπεριλαμβανομένων των μαθηματικών, της φυσικής, του δικαίου, της ιατρικής και της ηθικής. Το Ultra θα τροφοδοτήσει επίσης ένα νέο εργαλείο γραφής κώδικα που ονομάζεται AlphaCode2, το οποίο η Google ισχυρίστηκε ότι θα μπορούσε να ξεπεράσει το 85% των ανθρώπινων προγραμματιστών σε επίπεδο ικανοτήτων.
Ο Hassabis δήλωσε ότι το μοντέλο Ultra θα υποβληθεί σε εξωτερικές δοκιμές «κόκκινης ομάδας» – όπου οι ειδικοί δοκιμάζουν την ασφάλεια ενός προϊόντος – και η Google θα μοιραστεί τα αποτελέσματα με την κυβέρνηση των ΗΠΑ, σύμφωνα με εκτελεστικό διάταγμα που εξέδωσε ο Τζο Μπάιντεν τον Οκτώβριο.
Η Sissie Hsiao, γενική διευθύντρια του Bard στην Google, δήλωσε ότι η έκδοση του Bard δεν θα κυκλοφορήσει ακόμη στον Ευρωπαϊκό Οικονομικό Χώρο, ο οποίος περιλαμβάνει την ΕΕ και την Ελβετία. «Συνεργαζόμαστε με τις τοπικές ρυθμιστικές αρχές» ανέφερε, αλλά η Google δεν διευκρίνισε τα ρυθμιστικά ζητήματα πίσω από τις καθυστερήσεις στο Ηνωμένο Βασίλειο και την ΕΕ.
Ωστόσο, η Google ανέφερε ότι οι «ψευδαισθήσεις» ή οι ψευδείς απαντήσεις εξακολουθούσαν να αποτελούν πρόβλημα με το μοντέλο. «Είναι ακόμα, θα έλεγα, ένα άλυτο ερευνητικό πρόβλημα», δήλωσε ο Eli Collins, επικεφαλής προϊόντων στη Google DeepMind. Ο Collins δήλωσε επίσης ότι το Gemini Ultra έχει δείξει «προηγμένη συλλογιστική» και θα μπορούσε να δείξει «νέες δυνατότητες» – που δεν έχουν τα υπάρχοντα μοντέλα AI
Σε βίντεο της Google σχετικά με την παρουσίαση των δυνατοτήτων του Gemini εμφανίζεται το μοντέλο Ultra να κατανοεί τις χειρόγραφες απαντήσεις των εργασιών φυσικής ενός μαθητή και να δίνει λεπτομερείς συμβουλές για το πώς να λύσει τις ερωτήσεις, συμπεριλαμβανομένων εξισώσεων. Άλλα βίντεο έδειξαν την έκδοση Pro του Gemini να αναλύει και να αναγνωρίζει ένα σχέδιο μιας πάπιας καθώς και να απαντά σωστά ποια ταινία αφορά μια αναπαράσταση σε ένα βίντεο smartphone – σε αυτήν την περίπτωση, ήταν μια ερασιτεχνική λήψη της διάσημης σκηνής “bullet time” στο The Matrix.
Ερωτηθείς εάν το Gemini αντιπροσωπεύει ένα σημαντικό βήμα προς την κατεύθυνση της AGI (Τεχνητή Γενική Νοημοσύνη), ο Hassabis δήλωσε: «Νομίζω ότι αυτά τα πολυτροπικά θεμελιώδη μοντέλα θα αποτελέσουν το βασικό συστατικό της AGI, όποιο και αν είναι η τελική μορφή της. Αλλά υπάρχουν ακόμα πράγματα που λείπουν, για τα οποία εξακολουθούμε να ερευνούμε και να καινοτομούμε».