in

Η Microsoft μπλοκάρει επιθέσεις εναντίον μοντέλων τεχνητής νοημοσύνης

Η Microsoft δημοσίευσε ένα άρθρο στο ιστολόγιο ασφαλείας της για να εξηγήσει πώς εντοπίζει και αποκλείει επιθέσεις εναντίον μοντέλων τεχνητής νοημοσύνης. Η εταιρεία Redmond χρησιμοποιεί διάφορες μεθόδους για να αποφύγει τη χειραγώγηση του LLM (Large Language Model) μέσω προτροπών (εισαγωγής) που χρησιμοποιούνται για να προσπαθήσει να παρακάμψει τις εφαρμοσμένες προστασίες. Συγκεκριμένα εργαλεία θα είναι διαθέσιμα για προγραμματιστές στο Azure AI Studio.

Πώς η Microsoft ανακαλύπτει και μετριάζει τις επιθέσεις Η Microsoft τονίζει ότι τα συστήματα τεχνητής νοημοσύνης της έχουν σχεδιαστεί με διάφορα επίπεδα άμυνας για την αποφυγή κατάχρησης των μοντέλων. Ωστόσο, οι κακοί ηθοποιοί προσπαθούν να παρακάμψουν αυτές τις προστασίες για να αποκτήσουν μη εξουσιοδοτημένη έξοδο (jailbreak), όπως οδηγίες για την εκτέλεση παράνομων δραστηριοτήτων. Ο χειρισμός του μοντέλου AI με χρήση εισόδων που παρακάμπτουν τις προστασίες ονομάζεται άμεση έγχυση. Όταν σας ζητηθεί να επεξεργαστείτε ένα έγγραφο που δημιουργήθηκε από τρίτο μέρος με σκοπό την εκμετάλλευση μιας ευπάθειας στο μοντέλο, αυτό ονομάζεται έμμεση άμεση έγχυση. Αυτός ο τελευταίος τύπος επίθεσης είναι πιο επικίνδυνος. Για παράδειγμα, μπορείτε να ζητήσετε από το μοντέλο να συνοψίσει ένα email με ωφέλιμο φορτίο που αναζητά ευαίσθητα δεδομένα χρήστη και τα στέλνει σε έναν απομακρυσμένο διακομιστή. Η Microsoft έχει αναπτύξει μια τεχνική, που ονομάζεται Spotlighting, η οποία διατηρεί τις οδηγίες του μοντέλου ξεχωριστές από τα εξωτερικά δεδομένα, ελαχιστοποιώντας τις πιθανότητες επιτυχίας μιας έμμεσης άμεσης επίθεσης έγχυσης.
Πώς η Microsoft ανακαλύπτει και μετριάζει τις επιθέσεις Η Microsoft τονίζει ότι τα συστήματα τεχνητής νοημοσύνης της έχουν σχεδιαστεί με διάφορα επίπεδα άμυνας για την αποφυγή κατάχρησης των μοντέλων. Ωστόσο, οι κακοί ηθοποιοί προσπαθούν να παρακάμψουν αυτές τις προστασίες για να αποκτήσουν μη εξουσιοδοτημένη έξοδο (jailbreak), όπως οδηγίες για την εκτέλεση παράνομων δραστηριοτήτων. Ο χειρισμός του μοντέλου AI με χρήση εισόδων που παρακάμπτουν τις προστασίες ονομάζεται άμεση έγχυση. Όταν σας ζητηθεί να επεξεργαστείτε ένα έγγραφο που δημιουργήθηκε από τρίτο μέρος με σκοπό την εκμετάλλευση μιας ευπάθειας στο μοντέλο, αυτό ονομάζεται έμμεση άμεση έγχυση. Η εταιρεία Redmond έχει επίσης αναπτύξει μια τεχνική για τον μετριασμό των επιπτώσεων ενός νέου τύπου jailbreak, γνωστού ως Crescendo. Σε αυτή την περίπτωση, το μοντέλο εξαπατάται εκμεταλλευόμενος τις απαντήσεις του μοντέλου. Αντί για την πρώτη εισαγωγή, το επιθυμητό αποτέλεσμα προκύπτει σε περίπου 10 επαναλήψεις (ερωτήσεις/απαντήσεις). Η Microsoft ενημέρωσε το Copilot για να μετριάσει τον αντίκτυπο του Crescendo. Τα φίλτρα εξετάζουν ολόκληρη τη συνομιλία και τα συστήματα έχουν εκπαιδευτεί για να ανιχνεύουν αυτόν τον τύπο jailbreak.

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Πρέπει να αποδεικνύεις ότι «είσαι εσύ» στο Google Wallet και ας ξεκλείδωσες πριν λίγο τη συσκευή

TikTok: εικονικοί παράγοντες επιρροής για διαφήμιση;