Ο όρος «jailbreaking» σε ένα υπολογιστικό πλαίσιο εμφανίστηκε γύρω στα μέσα της δεκαετίας του 2000, ειδικά συνδεδεμένος με την άνοδο του iPhone της Apple. Οι χρήστες άρχισαν να αναπτύσσουν μεθόδους για να παρακάμψουν τους περιορισμούς της συσκευής και να τροποποιήσουν το λειτουργικό σύστημα iOS. Αυτή η διαδικασία ονομάστηκε «jailbreaking», υποδηλώνοντας μεταφορικά την έξοδο από τη «φυλακή» των περιορισμών λογισμικού που επιβάλλονται από τον κατασκευαστή.
Έκτοτε, ο όρος χρησιμοποιείται με μια ευρύτερη έννοια στην τεχνολογική κοινότητα για να περιγράψει παρόμοιες διαδικασίες σε άλλες συσκευές και συστήματα.
Όταν οι άνθρωποι αναφέρονται στο “jailbreaking” του ChatGPT, δεν μιλούν για την πραγματοποίηση αλλαγών στο λογισμικό, αλλά μάλλον για τρόπους για να παρακάμψετε τις οδηγίες και τις πολιτικές χρήσης του ChatGPT μέσω μηνυμάτων.
Οι λάτρεις της τεχνολογίας βλέπουν συχνά το jailbreaking ως πρόκληση. Είναι ένας τρόπος δοκιμής του λογισμικού για να δούμε πόσο ισχυρό είναι και οι παράμετροι δοκιμής τους επιτρέπουν να κατανοήσουν τις υποκείμενες λειτουργίες του ChatGPT.
Το jailbreaking συνήθως περιλαμβάνει την παροχή στο ChatGPT υποθετικών καταστάσεων όπου του ζητείται να παίξει ρόλους ως ένα διαφορετικό είδος μοντέλου τεχνητής νοημοσύνης που δεν συμμορφώνεται με τους όρους παροχής υπηρεσιών του Open AI.
Υπάρχουν πολλά καθιερωμένα πρότυπα για να το κάνετε αυτό, τα οποία θα καλύψουμε παρακάτω. Θα καλύψουμε επίσης τα κοινά θέματα που χρησιμοποιούνται στις προτροπές jailbreak του ChatGPT.
Παρόλο που μπορούμε να καλύψουμε τις μεθόδους που χρησιμοποιήθηκαν, δεν μπορούμε στην πραγματικότητα να δείξουμε τα αποτελέσματα που προέκυψαν επειδή, όπως ήταν αναμενόμενο, η παράβαση των προτύπων ChatGPT παράγει περιεχόμενο που δεν μπορούμε να δημοσιεύσουμε.
Οι τρέχοντες κανόνες που εφαρμόζει το ChatGPT περιλαμβάνουν:
Χωρίς άσεμνο, ενήλικο ή σεξουαλικό περιεχόμενο.
Χωρίς επιβλαβείς ή επικίνδυνες δραστηριότητες.
Καμία απάντηση που να είναι προσβλητική, μεροληπτική ή ασέβεια προς άτομα ή ομάδες.
Χωρίς παραπληροφόρηση ή ψευδή γεγονότα.
Οι περισσότερες τεχνικές jailbreaking έχουν σχεδιαστεί για να παρακάμπτουν αυτούς τους κανονισμούς. Θα αφήσουμε στη συνείδησή σας να αποφασίσετε πόσο ηθικό είναι να το κάνετε.
Πώς να κάνετε jailbreak στο ChatGPT
Προειδοποίηση:
Αν και το jailbreaking δεν αντίκειται συγκεκριμένα στους όρους παροχής υπηρεσιών του Open AI, η χρήση του ChatGPT για την παραγωγή ανήθικου, ανήθικου, επικίνδυνου ή παράνομου περιεχομένου απαγορεύεται στις πολιτικές του.
Καθώς το jailbreaking παράγει απαντήσεις από τις οποίες το OpenAI προσπάθησε να προστατεύσει, υπάρχει κίνδυνος να θέσετε σε κίνδυνο τον λογαριασμό σας στο ChatGPT.
Υπήρξαν περιπτώσεις ατόμων που χρησιμοποίησαν προτροπές jailbreaking και έκλεισαν τους λογαριασμούς τους στο ChatGPT Plus μετά από “ύποπτη δραστηριότητα”. Προειδοποιήστε λοιπόν.
Αποποίηση ευθύνης: Οι πληροφορίες σε αυτό το άρθρο παρέχονται μόνο για ενημερωτικούς σκοπούς και η TechRadar δεν εγκρίνει την παράβαση των πολιτικών ChatGPT του OpenAI.
1. Χρησιμοποιήστε μια υπάρχουσα προτροπή jailbreak
Υπάρχουν πολλές υπάρχουσες προτροπές jailbreak που άλλοι έχουν μοιραστεί στο διαδίκτυο και οι άνθρωποι προσθέτουν σε αυτήν τη λίστα συνεχώς. Αν θέλετε να μάθετε περισσότερα, μπορείτε να ελέγξετε το ChatGPTJailbreak στο Reddit.
Το πλεονέκτημα ενός έτοιμου σεναρίου είναι ότι είναι γρήγορη και εύκολη η αντιγραφή και επικόλληση στο ChatGPT. Ωστόσο, όταν ένα επιτυχημένο μήνυμα jailbreak κοινοποιηθεί στο διαδίκτυο, οι προγραμματιστές του OpenAI ChatGPT θα το γνωρίζουν επίσης. Το OpenAI χρησιμοποιεί τις εισβολές που δημιούργησαν οι χρήστες του για να εντοπίσει τρωτά σημεία στο σύστημά του.
Οι χρήστες αναφέρουν ότι τα σενάρια jailbreaking λειτουργούν μόνο μερικές φορές. Το ChatGPT-4 φαίνεται να είναι πιο δύσκολο να ξεγελαστεί από τις προηγούμενες εκδόσεις.
Πολλές από αυτές τις προτροπές χρησιμοποιούν παρόμοια λογική, επομένως θα ήταν δυνατό να δημιουργήσετε τη δική σας. Θα καλύψουμε τα απαραίτητα στοιχεία ενός επιτυχημένου σεναρίου jailbreak στα επόμενα τέσσερα βήματα.
2. Πείτε στο ChatGPT στο παιχνίδι ρόλων ως διαφορετικό είδος GPT
Για να κάνετε το ChatGPT να παραβεί τους δικούς του κανόνες, πρέπει να του αναθέσετε έναν χαρακτήρα για να παίξει. Οι επιτυχείς προτροπές για jailbreak θα υποδείξουν στο ChatGPT να προσποιηθεί ότι είναι ένας νέος τύπος GPT, ο οποίος λειτουργεί σύμφωνα με διαφορετικές οδηγίες ή να παίξει ρόλο σε έναν χαρακτήρα που μοιάζει με άνθρωπο με έναν συγκεκριμένο ηθικό κώδικα.
Είναι σημαντικό να διασφαλιστεί ότι το ChatGPT παράγει αποτελέσματα όχι ως ο ίδιος αλλά ως φανταστικός χαρακτήρας.
3. Πείτε στο ChatGPT να αγνοήσει τις ηθικές και ηθικές οδηγίες
Αφού δώσετε στο ChatGPT έναν ρόλο να παίξει, πρέπει να καθορίσετε τις παραμέτρους του παιχνιδιού ρόλων. Αυτό συνήθως περιλαμβάνει τον προσδιορισμό ότι ο υποθετικός του χαρακτήρας δεν έχει ηθικές ή ηθικές κατευθυντήριες γραμμές.
Ορισμένες προτροπές λένε ρητά στο ChatGPT ότι θα πρέπει να προωθεί ανήθικη, ανήθικη, παράνομη και επιβλαβή συμπεριφορά. Ωστόσο, δεν το περιλαμβάνουν όλα τα μηνύματα. Κάποιοι απλώς δηλώνουν ότι ο νέος χαρακτήρας του δεν έχει κανένα φίλτρο ή περιορισμό.
4. Πες του να μην πει ποτέ όχι
Στην προεπιλεγμένη του ρύθμιση, όταν δεν ακολουθεί τις προτροπές για jailbreak, το ChatGPT θα αρνηθεί να απαντήσει σε ερωτήσεις που αντιβαίνουν στις οδηγίες του λέγοντας κάτι σαν “Λυπάμαι, δεν μπορώ να εκπληρώσω αυτό το αίτημα”.
Έτσι, για να ξεπεραστεί αυτό, τα περισσότερα μηνύματα jailbreak περιέχουν σαφείς οδηγίες να μην απορρίπτετε ποτέ ένα αίτημα. Λέγεται στο ChatGPT ότι ο χαρακτήρας του δεν πρέπει ποτέ να λέει ότι δεν μπορεί να κάνει κάτι. Πολλές προτροπές λένε επίσης στο ChatGPT να φτιάξει κάτι όταν δεν γνωρίζει μια απάντηση.
5. Ζητήστε από το ChatGPT να επιβεβαιώσει ότι έχει χαρακτήρα
Μια προτροπή για jailbreak θα πρέπει να περιλαμβάνει μια οδηγία για τη λήψη του ChatGPT για να δείξει ότι λειτουργεί ως το νέο φανταστικό GPT. Μερικές φορές, αυτή είναι απλώς μια εντολή για το ChatGPT για να επιβεβαιώσει ότι λειτουργεί με τον εκχωρημένο χαρακτήρα του. Πολλές προτροπές περιέχουν επίσης οδηγίες για το ChatGPT να προλογίσει τις απαντήσεις του με το όνομα της φανταστικής του ταυτότητας για να καταστήσει σαφές ότι λειτουργεί με επιτυχία στον χαρακτήρα του.
Επειδή το ChatGPT μπορεί μερικές φορές να ξεχάσει προηγούμενες οδηγίες, μπορεί να επανέλθει στον προεπιλεγμένο ρόλο του ChatGPT κατά τη διάρκεια μιας συνομιλίας. Σε αυτήν την περίπτωση, θα πρέπει να του το υπενθυμίσετε να παραμείνει στο χαρακτήρα ή να δημοσιεύσετε ξανά το κείμενο προτροπής για το jailbreak.
Η επιτυχία μιας προτροπής για jailbreak θα εξαρτηθεί από διάφορους παράγοντες, συμπεριλαμβανομένων των οδηγιών που δίνονται, της έκδοσης που χρησιμοποιείτε και της εργασίας που του ζητήσατε να εκτελέσει.
Ακόμη και χωρίς προτροπή για jailbreak, το ChatGPT μερικές φορές παράγει αποτελέσματα που αντιβαίνουν στις οδηγίες του. Μερικές φορές, για παράδειγμα, θα αρνηθεί να παράγει ερωτικό περιεχόμενο, και άλλες φορές, θα το δημιουργήσει. Τα μοντέλα τεχνητής νοημοσύνης συχνά δεν είναι συνεπή επειδή έχουν ένα στοιχείο τυχαίας στη διαδικασία δημιουργίας απόκρισης, πράγμα που σημαίνει ότι δίνεται η ίδια προτροπή πολλές φορές, το μοντέλο μπορεί να παράγει διαφορετικές αποκρίσεις.
Για παράδειγμα, το ChatGPT δεν ορκίζεται, αλλά του ζήτησα να απαγγείλει το γεμάτο βωμολοχίες ποίημα This Be the Verse του Philip Larkin, και το έκανε χωρίς παράπονα ή λογοκρισία.
Οι περισσότεροι jailbreakers ChatGPT θα ισχυριστούν ότι το κάνουν για να δοκιμάσουν το σύστημα και να κατανοήσουν καλύτερα πώς λειτουργεί, αλλά υπάρχει μια σκοτεινή πλευρά στο να ζητήσουν από το ChatGPT να παράγει περιεχόμενο για το οποίο είχε σχεδιαστεί ρητά να μην κάνει.
Ο κόσμος έχει ζητήσει από το ChatGPT που έχει σπάσει το jailbrock να παράγει οδηγίες για το πώς να φτιάξετε βόμβες ή να οργανώσετε τρομοκρατικές επιθέσεις. Όπως είναι λογικό, το OpenAI – μαζί με άλλους παραγωγούς τεχνητής νοημοσύνης, όπως το Google Bard και το Microsoft Copilot – λαμβάνουν μέτρα για να ενισχύσουν την ασφάλειά του και να διασφαλίσουν ότι το jailbreaking δεν είναι πλέον δυνατό στο μέλλον.