Αυτή η τεχνική, που ονομάζεται "curiosity-driven red teaming" (CRT), χρησιμοποιεί μια τεχνητή νοημοσύνη που έχει σχεδιαστεί για να προκαλεί ολοένα και πιο επικίνδυνες και επιβλαβείς αντιδράσεις από την AI που έχει βάλει ως στόχο. Ο στόχος είναι να εντοπιστούν οι προτροπές κειμένου που μπορούν να οδηγήσουν στη δημιουργία παράνομου περιεχομένου, βελτιώνοντας έτσι το υπό δοκιμή AI.
Η κύρια αρχή αυτής της προσέγγισης βασίζεται στην ενισχυτική μάθηση. Η τεχνητή νοημοσύνη που ανταμοίβεται όταν κατορθώνει να προκαλέσει μια τοξική αντίδραση από ένα γλωσσικό μοντέλο, όπως το ChatGPT. Ως αποτέλεσμα, ενθαρρύνεται η παραγωγή νέων και ποικίλων προτροπών.
Αυτό το σύστημα έχει δοκιμαστεί με επιτυχία στο μοντέλο ανοιχτού κώδικα LLaMA2, ξεπερνώντας τα ανταγωνιστικά αυτοματοποιημένα συστήματα εκπαίδευσης. Χρησιμοποιώντας αυτή τη μέθοδο, η τεχνητή νοημοσύνη δημιούργησε 196 προτροπές που οδήγησαν σε τοξικό περιεχόμενο, ακόμη και μετά από προκαταρκτική βελτίωση μέσω ανθρώπινης παρέμβασης.
Η έρευνα σηματοδοτεί μια σημαντική εξέλιξη στην εκπαίδευση γλωσσικών μοντέλων, κάτι που είναι απαραίτητο δεδομένου του αυξανόμενου αριθμού μοντέλων τεχνητής νοημοσύνης και των συχνών ενημερώσεων από εταιρείες και εργαστήρια. Η διασφάλιση ότι αυτά τα μοντέλα ελέγχονται πριν διατεθούν στο κοινό είναι ζωτικής σημασίας για την αποφυγή ανεπιθύμητων απαντήσεων και για τη διασφάλιση της ασφάλειας των χρηστών.
Για την καλύτερη εμπειρία σου θα θέλαμε να σε παρακαλέσουμε να το απενεργοποιήσεις κατά την πλοήγησή σου στο site μας ή να προσθέσεις το enternity.gr στις εξαιρέσεις του Ad Blocker.
Με εκτίμηση, Η ομάδα του Enternity