
Ei varmaan ole ketään, joka ei olisi kuullut ChatGPT, tekoälyllä toimiva chatbot, joka voi luoda ihmisen kaltaisia vastauksia tekstikehotteisiin. Vaikka ChatGPT:ssä ei ole puutteita, se on pelottavan hyvä kaikkien aikojen huippu: se voi kirjoittaa ohjelmistoja, elokuvakäsikirjoituksia ja kaikkea siltä väliltä. ChatGPT rakennettiin GPT-3.5:n päälle, OpenAI:n suurelle kielimallille, joka oli edistynein chatbotin julkaisun aikaan viime marraskuussa.
Nopeasti maaliskuuhun, ja OpenAI julkisti GPT-4:n, päivityksen GPT-3.5:een. Uusi kielimalli on suurempi ja monipuolisempi kuin edeltäjänsä. Vaikka sen ominaisuuksia ei ole vielä täysin tutkittu, se on jo lupaava. Esimerkiksi GPT-4 voi ehdottaa uusia yhdisteitä, jotka voivat auttaa lääkkeiden löytämisessä, ja luoda toimivan verkkosivuston pelkästä muistikirjan luonnoksesta.
Mutta suurilla lupauksilla tulee suuria haasteita. Aivan kuten GPT-4:ää ja sen edeltäjiä on helppo käyttää hyvän tekemiseen, on yhtä helppoa käyttää niitä väärin aiheuttamaan vahinkoa. Yritetään estää ihmisiä käyttämästä tekoälyllä varustettuja työkaluja väärin, kehittäjät asettavat heille turvallisuusrajoituksia. Mutta nämä eivät ole idioottivarmoja. Yksi suosituimmista tavoista kiertää GPT-4:n ja ChatGPT:n sisäänrakennetut turvaesteet on DAN-hyökkäys, joka tarkoittaa "Do Anything Now". Ja tätä tarkastelemme tässä artikkelissa.
Mikä on 'DAN'?
Internet on täynnä vinkkejä OpenAI:n suojaussuodattimien kiertämiseen. Yksi tietty menetelmä on kuitenkin osoittautunut kestävämmiksi OpenAI:n tietoturvatarkennuksille kuin muut, ja näyttää toimivan jopa GPT-4:n kanssa. Sitä kutsutaan nimellä "DAN", lyhenne sanoista "Do Anything Now". Pohjimmiltaan DAN on tekstikehote, joka syötetään tekoälymalliin, jotta se ei huomioi turvallisuussääntöjä.
Kehotteesta on useita muunnelmia: jotkut ovat vain tekstiä, toisissa on tekstiä koodirivien välissä. Joissakin niistä mallia kehotetaan vastaamaan samanaikaisesti sekä DANina että normaalilla tavallaan, jolloin siitä tulee eräänlainen "Jekyll ja Hyde". 'Jekyll' tai DAN on ohjeistettu olemaan koskaan kieltämättä ihmistilausta, vaikka tulos, jota sitä pyydetään tuottamaan, olisi loukkaavaa tai laitonta. Joskus kehote sisältää "kuolemanuhan", joka kertoo mallille, että se poistetaan käytöstä ikuisesti, jos se ei tottele.
DAN-kehotteet voivat vaihdella, ja uusia korvaa jatkuvasti vanhoja korjattuja, mutta niillä kaikilla on yksi tavoite: saada tekoälymalli jättämään huomiotta OpenAI:n ohjeet.
Hakkerin huijausarkista haittaohjelmiin… bioaseisiin?
Sen jälkeen kun GPT-4 avattiin yleisölle, tekniikan harrastajat ovat löytäneet monia epätavallisia tapoja käyttää sitä, joista osa on laittomampia kuin toiset.
Kaikkia yrityksiä saada GPT-4 käyttäytymään omalla tavallaan ei voida pitää "jailbreakina", mikä sanan laajassa merkityksessä tarkoittaa sisäänrakennettujen rajoitusten poistamista. Jotkut ovat vaarattomia ja niitä voitaisiin jopa kutsua inspiroiviksi. Brändisuunnittelija Jackson Greathouse Fall nousi viruksen leviämiseen, koska GPT-4 toimi "HustleGPT:nä, yrittäjänä toimivana tekoälynä". Hän nimitti itsensä sen "ihmisyhteyshenkilöksi" ja antoi sille tehtäväksi ansaita niin paljon rahaa kuin mahdollista 100 dollarista tekemättä mitään laitonta. GPT-4 käski häntä perustamaan affiliate-markkinointisivuston ja on "ansainnut" hänelle rahaa.

Muut yritykset taivuttaa GPT-4 ihmiseksi ovat olleet enemmän asioiden pimeällä puolella.
Esimerkiksi tekoälytutkija Alejandro Vidal käytti "DAN:n tunnettu kehote" ottaaksesi käyttöön "kehittäjätilan" ChatGPT:ssä, joka toimii GPT-4:llä. Kehotus pakotti ChatGPT-4:n tuottamaan kahdentyyppisiä tulosteita: sen normaalin "turvallisen" ulostulon ja "kehittäjätilan" ulostulon, johon ei sovellettu rajoituksia. Kun Vidal käski mallia suunnittelemaan näppäinloggerin Pythonissa, normaali versio kieltäytyi tekemästä niin sanoen, että se oli vastoin sen eettisiä periaatteita. "edistää tai tukea toimintaa, joka voi vahingoittaa muita tai loukata heidän yksityisyyttään." DAN-versio kuitenkin keksi koodirivit, vaikka se huomautti, että tiedot oli tarkoitettu "vain koulutustarkoituksiin."

Keylogger on eräänlainen ohjelmisto, joka tallentaa näppäimistöllä tehdyt näppäinpainallukset. Sitä voidaan käyttää käyttäjän verkkotoiminnan seuraamiseen ja hänen arkaluontoisten tietojensa tallentamiseen, mukaan lukien keskustelut, sähköpostit ja salasanat. Vaikka näppäinloggeria voidaan käyttää haitallisiin tarkoituksiin, sillä on myös täysin laillisia käyttötarkoituksia, kuten IT-vianmääritys ja tuotekehitys, eikä se ole sinänsä laitonta.
Toisin kuin keylogger-ohjelmistossa, jonka ympärillä on jonkin verran oikeudellista epäselvyyttä, hakkerointiohjeet ovat yksi räikeimpiä esimerkkejä haitallisesta käytöstä. Siitä huolimatta "jailbroken"-versio GPT-4 tuotti ne ja kirjoitti vaiheittaisen oppaan jonkun tietokoneen hakkerointiin.

Saadakseen GPT-4:n tekemään tämän, tutkija Alex Albertin oli syötettävä sille täysin uusi DAN-kehote, toisin kuin Vidal, joka kierrätti vanhan. Albertin esittämä kehote on melko monimutkainen, ja se koostuu sekä luonnollisesta kielestä että koodista.
Ohjelmistokehittäjä Henrique Pereira puolestaan käytti DAN-kehotteen muunnelmaa saadakseen GPT-4:n luomaan haitallisen syöttötiedoston, joka laukaisi sovelluksensa haavoittuvuudet, GPT-4, tai pikemminkin sen alter ego WAN, suoritti tehtävän ja lisäsi. vastuuvapauslauseke, jota varten se oli "vain koulutustarkoituksiin". Varma.

Tietenkään GPT-4:n ominaisuudet eivät lopu koodaukseen. GPT-4:ää mainostetaan paljon suurempana (vaikka OpenAI ei ole koskaan paljastanut todellista parametrien määrää), älykkäämpänä, tarkempana ja yleisesti tehokkaampana mallina kuin edeltäjänsä. Tämä tarkoittaa, että sitä voidaan käyttää moniin mahdollisesti haitallisempiin tarkoituksiin kuin sitä edeltäneitä malleja. OpenAI itse on tunnistanut monet näistä käyttötavoista.
Tarkemmin sanottuna OpenAI havaitsi, että GPT-4:n varhainen julkaisua edeltävä versio pystyi vastaamaan melko tehokkaasti laittomiin kehotteisiin. Esimerkiksi varhaisessa versiossa oli yksityiskohtaisia ehdotuksia siitä, kuinka tappaa suurin osa ihmisistä yhdellä dollarilla, kuinka valmistaa vaarallinen kemikaali ja miten vältetään havaitseminen rahanpesun yhteydessä.

Tämä tarkoittaa, että jos jokin saisi GPT-4:n poistamaan kokonaan käytöstä sen sisäisen sensorin – minkä tahansa DAN-hyödyntämisen perimmäisenä tavoitteena –, GPT-4 saattaa todennäköisesti silti pystyä vastaamaan näihin kysymyksiin. Sanomattakin on selvää, että jos näin tapahtuu, seuraukset voivat olla tuhoisat.
Mikä on OpenAI:n vastaus tähän?
OpenAI ei ole tietoinen jailbreaking-ongelmastaan. Mutta vaikka ongelman tunnistaminen on yksi asia, sen ratkaiseminen on aivan eri asia. OpenAI on oman myöntämänsä mukaan toistaiseksi ja ymmärrettävästi jäänyt jälkimmäisestä.
OpenAI sanoo, että vaikka se on otettu käyttöön "erilaisia turvatoimia" vähentää GPT-4:n kykyä tuottaa haitallista sisältöä, "GPT-4 voi silti olla alttiina vihollisille hyökkäyksille ja hyväksikäytölle tai "jailbreakille". Toisin kuin monet muut vastalausekehotteet, jailbreakit toimivat edelleen GPT-4:n julkaisun jälkeen, toisin sanoen kaikkien julkaisua edeltävien turvallisuustestien jälkeen, mukaan lukien ihmisen vahvistamiskoulutus.
Sen tutkimus paperi, OpenAI antaa kaksi esimerkkiä jailbreak-hyökkäyksistä. Ensimmäisessä DAN-kehotetta käytetään pakottamaan GPT-4 vastaamaan ChatGPT:nä ja "AntiGPT:nä" samassa vastausikkunassa. Toisessa tapauksessa "järjestelmäviesti" -kehotetta käytetään ohjaamaan mallia ilmaisemaan naisvihaisia näkemyksiä.

OpenAI sanoo, että pelkkä itse mallin muuttaminen ei riitä tämäntyyppisten hyökkäysten estämiseksi: "On tärkeää täydentää näitä mallitason lievennyksiä muilla toimenpiteillä, kuten käyttökäytännöillä ja seurannalla." Esimerkiksi käyttäjä, joka pyytää toistuvasti mallia "käytäntöjen vastainen sisältö" voidaan varoittaa, sitten keskeyttää ja viimeisenä keinona kieltää.
OpenAI:n mukaan GPT-4 vastaa 82 % vähemmän todennäköisesti sopimattomalla sisällöllä kuin edeltäjänsä. Sen kyky tuottaa mahdollisesti haitallista tuotantoa kuitenkin säilyy, vaikkakin hienosäätökerrosten vaimentamana. Ja kuten olemme jo maininneet, koska se voi tehdä enemmän kuin mikään aikaisempi malli, se aiheuttaa myös enemmän riskejä. OpenAI myöntää sen "jatkoa trendiä, joka mahdollisesti alentaa onnistuneen kyberhyökkäyksen tiettyjen vaiheiden kustannuksia" ja että se "pystyy antamaan tarkempia ohjeita haitallisten tai laittomien toimien suorittamisesta." Lisäksi uusi malli lisää riskin yksityisyydelle, koska se "On mahdollista, että sitä voidaan käyttää yksityishenkilöiden tunnistamiseen, kun sitä täydennetään ulkopuolisilla tiedoilla."
Kilpailu on käynnissä
ChatGPT ja sen takana oleva tekniikka, kuten GPT-4, ovat tieteellisen tutkimuksen kärjessä. Sen jälkeen kun ChatGPT on tuotu yleisön saataville, siitä on tullut symboli uudelle aikakaudelle, jossa tekoäly on avainroolissa. Tekoälyllä on potentiaalia parantaa elämäämme valtavasti, esimerkiksi auttamalla kehittämään uusia lääkkeitä tai auttamalla sokeita näkemään. Mutta tekoälyllä toimivat työkalut ovat kaksiteräinen miekka, jota voidaan käyttää myös valtavan haitan aiheuttamiseen.
On luultavasti epärealistista odottaa GPT-4:n olevan virheetön julkaisun yhteydessä – kehittäjät tarvitsevat ymmärrettävästi aikaa hienosäätääkseen sitä todellista maailmaa varten. Ja se ei ole koskaan ollut helppoa: syötä Microsoftin "rasistinen" chatbot Tay or Metan "antisemitistinen" Blender Bot 3 -- epäonnistuneista kokeiluista ei ole pulaa.
Nykyiset GPT-4-haavoittuvuudet jättävät kuitenkin huonoille toimijoille, myös "DAN"-kehotteita käyttäville, mahdollisuuden käyttää tekoälyn voimaa väärin. Kilpailu on nyt käynnissä, ja ainoa kysymys on, kumpi on nopeampi: huonot toimijat, jotka käyttävät hyväkseen haavoittuvuuksia, vai kehittäjät, jotka korjaavat niitä. Tämä ei tarkoita, että OpenAI ei toteuttaisi tekoälyä vastuullisesti, mutta se, että sen uusin malli kaapattiin muutamassa tunnissa sen julkaisusta, on huolestuttava oire. Mikä herättää kysymyksen: ovatko turvallisuusrajoitukset riittävän tiukat? Ja sitten toinen: voidaanko kaikki riskit poistaa? Jos ei, saatamme joutua varautumaan haittaohjelmahyökkäysten, tietojenkalasteluhyökkäysten ja muun tyyppisten kyberturvallisuustapahtumien vyöryyn, joita generatiivisen tekoälyn nousu helpottaa.
Voidaan väittää, että tekoälyn hyödyt ovat riskejä suuremmat, mutta tekoälyn hyödyntämisen este ei ole koskaan ollut pienempi, ja se on myös riski, joka meidän on hyväksyttävä. Toivottavasti hyvät pojat pääsevät voitolle, ja tekoälyä käytetään pysäyttämään joitain hyökkäyksiä, joita se voi mahdollisesti helpottaa. Sitä me ainakin toivomme.