in Internet

Η Cloudflare ανακοίνωσε την ανάπτυξη του Firewall για AI

6 Μαρτίου, 2024, 2:00 μμ

Η Cloudflare ανακοίνωσε την ανάπτυξη του Firewall για AI , ένα επίπεδο προστασίας που βοηθά στον εντοπισμό κατάχρησης πριν φτάσει στο LLM (Large Language Model). Τα μοντέλα τεχνητής νοημοσύνης που δημιουργούνται, που χρησιμοποιούνται σε εφαρμογές που έχουν πρόσβαση στο Διαδίκτυο, ενδέχεται να έχουν ευπάθειες που εκμεταλλεύονται κακοί παράγοντες.

Το Harder προστατεύει τις εφαρμογές AI

Το Firewall for AI είναι ένα Web Application Firewall (WAF) που αναπτύχθηκε ειδικά για εφαρμογές που χρησιμοποιούν μοντέλα AI. Το Cloudflare υπογραμμίζει ότι οι εγκληματίες του κυβερνοχώρου θα μπορούσαν να χρησιμοποιήσουν συγκεκριμένες προτροπές για να εκμεταλλευτούν ευπάθειες προτύπων. Αλλά η ασφάλεια μιας εφαρμογής AI είναι πιο περίπλοκη από μια παραδοσιακή εφαρμογή Ιστού.

Τα τελευταία είναι ντετερμινιστικά, που σημαίνει ότι σας επιτρέπουν να εκτελείτε τις ίδιες λειτουργίες για κάθε είσοδο. Οι εφαρμογές AI, από την άλλη πλευρά, δεν είναι ντετερμινιστικές για διάφορους λόγους. Πρώτα απ ‘όλα, η εισαγωγή βασίζεται στη φυσική γλώσσα, επομένως είναι δύσκολο να εντοπιστεί το προβληματικό αίτημα. Επιπλέον, οι απαντήσεις είναι πάντα διαφορετικές ακόμα και με την ίδια προτροπή.

Σε μια παραδοσιακή εφαρμογή, ο κώδικας διαχωρίζεται από τα δεδομένα. Στα LLM, ωστόσο, τα δεδομένα αποτελούν μέρος του ίδιου του μοντέλου κατά τη διάρκεια της εκπαιδευτικής διαδικασίας. Το ίδρυμα OSWAP έχει καταγράψει τα 10 κορυφαία τρωτά σημεία. Μερικά μπορούν να αντιμετωπιστούν κατά τις φάσεις σχεδιασμού, ανάπτυξης και εκπαίδευσης. Τρία από αυτά (Prompt Injection, Model Denial of Service και Sensitive Information Disclosure) μπορούν να μετριαστούν με το Firewall για AI.

Η εφαρμογή AI έχει πρόσβαση στο τείχος προστασίας μέσω API για επικύρωση αιτημάτων (εισαγωγή). Οι αποκρίσεις του μοντέλου (έξοδος) περνούν επίσης μέσα από το τείχος προστασίας πριν φτάσουν στην εφαρμογή AI. Το Model Denial of Service είναι παρόμοιο με μια παραδοσιακή επίθεση DoS, επομένως το τείχος προστασίας σάς επιτρέπει να εφαρμόσετε έναν περιορισμό στον αριθμό των αιτημάτων ανά μεμονωμένη περίοδο λειτουργίας.

Η αποκάλυψη ευαίσθητων πληροφοριών, από την άλλη πλευρά, συμβαίνει όταν το μοντέλο αποκαλύπτει εμπιστευτικά δεδομένα στις απαντήσεις, καθώς εισήχθησαν στα δεδομένα εκπαίδευσης κατά λάθος. Μπορείτε να δημιουργήσετε κανόνες έτσι ώστε το τείχος προστασίας να αποκλείει την έξοδο με ευαίσθητες πληροφορίες. Λειτουργεί επίσης αντίστροφα για να εμποδίζει τους χρήστες να εισάγουν προσωπικά δεδομένα σε προτροπές.

Μία από τις πιο χρησιμοποιούμενες τεχνικές για τον χειρισμό μοντέλων είναι γνωστή ως Prompt Injection . Εισάγονται αιτήματα που δημιουργούν παραισθήσεις ή λανθασμένες και προσβλητικές απαντήσεις. Το τείχος προστασίας του Cloudflare μπορεί να αποκλείσει αυτές τις προτροπές μέσω κανόνων που καθορίζονται από τον πελάτη.

Οι δύο πρώτες προστασίες είναι ήδη διαθέσιμες, ενώ η τρίτη είναι ακόμα σε εξέλιξη και μια beta έκδοση θα κυκλοφορήσει τους επόμενους μήνες. Οι ενδιαφερόμενοι μπορούν να εγγραφούν στη λίστα αναμονής.