Το πρώτο, που ονομάζεται Gemini Robotics, είναι ένα μοντέλο όρασης-γλώσσας-δράσης ικανό να κατανοεί νέες καταστάσεις, ακόμη και αν δεν έχει εκπαιδευτεί σε αυτές. Βασίζεται στο Gemini 2.0, την τελευταία έκδοση του κορυφαίου μοντέλου τεχνητής νοημοσύνης της Google. Η Carolina Parada, η διευθύντρια και επικεφαλής του τμήματος ρομποτικής της Google DeepMind, δήλωσε ότι το Gemini Robotics «αντλεί από την πολυτροπική κατανόηση του κόσμου του Gemini και τη μεταφέρει στον πραγματικό κόσμο προσθέτοντας φυσικές ενέργειες ως νέο τρόπο συμπεριφοράς».

Εκτός από την ικανότητα ολοκλήρωσης νέων σεναρίων, το Gemini Robotics είναι καλύτερο στην αλληλεπίδραση με τους ανθρώπους και το περιβάλλον τους. Είναι επίσης ικανό να εκτελεί πιο ακριβείς φυσικές εργασίες, όπως το δίπλωμα ενός χαρτιού ή να αφαιρεί το καπάκι από ένα μπουκάλι.
Το δεύτερο είναι το Gemini Robotics-ER (ή embodied reasoning), το οποίο η εταιρεία περιγράφει ως ένα προηγμένο μοντέλο οπτικής γλώσσας που μπορεί να «κατανοήσει τον πολύπλοκο και δυναμικό κόσμο μας».
Όπως εξηγεί ο Parada, όταν τοποθετείτε φαγητό σε ένα κουτί και έχετε αντικείμενα σε ένα τραπέζι μπροστά σας, θα πρέπει να ξέρετε πού βρίσκονται όλα, καθώς και πώς να ανοίξετε το κουτί του φαγητού, πώς να πιάσετε τα αντικείμενα και πού να τα τοποθετήσετε. Αυτό το είδος συλλογισμού αναμένεται να κάνει το Gemini Robotics-ER.

Όσον αφορά την ασφάλεια, ο ερευνητής της Google DeepMind Vikas Sindhwani δηλώνει ότι η εταιρεία ακολουθεί μια πολυεπίπεδη προσέγγιση, με το μοντέλο να εκπαιδεύεται ούτως ώστε να μπορεί να καθορίσει αν μια ενέργεια είναι ασφαλής, με βάση ένα συγκεκριμένο σενάριο.
Για την καλύτερη εμπειρία σου θα θέλαμε να σε παρακαλέσουμε να το απενεργοποιήσεις κατά την πλοήγησή σου στο site μας ή να προσθέσεις το enternity.gr στις εξαιρέσεις του Ad Blocker.
Με εκτίμηση, Η ομάδα του Enternity