Viktiga tips från NIST:s nya vägledning om kontradiktoriska AI-hot

22 februari 2024

Innehållsförteckning:

1) Fyra typer av attacker
2) Hur man mildrar dessa attacker
3) Skapa bredare sammanhang
4) Mer arbete kvar att göra

Det finns ett koncept inom artificiell intelligens (AI) som kallas "alignment", som säkerställer att ett AI-system alltid följer mänskliga avsikter och värderingar. Men vad händer om någon kompromissar med ett AI-system för att göra något som dess skapare inte ville?

Exempel på detta hot, känt som kontradiktorisk AI, sträcker sig från att bära smink som medvetet lurar ansiktsigenkänningssystem, till att lura autonoma bilar att svänga över vägen. Det är ett område med potentiell risk för AI-systembyggare och deras användare, men mycket av forskningen kring det är fortfarande akademisk.

I januari publicerade US National Institute of Standards and Technology (NIST) ett dokument som försökte destillera denna forskning. Det har varit ett långt projekt. Det första utkastet till Motstridig maskininlärning: en taxonomi och terminologi av attacker och begränsningar dök upp 2019. Den här senaste versionen är den sista, och den kan vara ett viktigt grunddokument för AI-utvecklare som vill bygga in begränsningar i sina produkter.

Fyra typer av attacker

Tasonomien delar in kontradiktoriska AI-attacker i flera kategorier:

1) Övergreppsattacker

Dessa händer innan modellträningen ens börjar genom att manipulera data innan den samlas in – mata modellen med falska eller manipulativa data utformade för att påverka dess resultat. Till skillnad från de andra är denna form av attack unik för generativa AI-system (GenAI).

Vi har redan sett några innovativa exempel på detta i kampen om immateriella rättigheter i GenAI. nightshade, ett projekt från forskare vid Chicago University, är ett verktyg som konstnärer och illustratörer kan använda för att subtilt förändra sitt arbete online utan att ändra den visuella upplevelsen för tittarna.

Nightshades förändringar gör att GenAI-träningsmodeller misstolkar objekt i den (det kan till exempel se en ko som en brödrost). Detta förvirrar GenAI-modeller som förlitar sig på träningsdata för att skapa "nya" konstverk. Nightshade tar upp vad teamet ser som otillåten stöld av data för utbildningsändamål genom att göra det ekonomiskt problematiskt för GenAI-företag.

2) Förgiftningsattacker

Dessa behandlar också AI-träningsprocessen, men på ett sätt som medvetet korrumperar redan insamlad data för att förvränga den slutliga träningsmodellen. Vi kan föreställa oss att någon hackar visuell data som används för att träna autonoma fordon och ändrar eller felaktigt taggar bilder av stoppskyltar och förvandlar dem till gröna ljus.

3) Undangreppsattacker

Även om en AI-modell är noggrant tränad på rätt data, kan angripare fortfarande rikta sig mot AI-systemet efter att det har distribuerats. En undanflyktsattack riktar sig mot dess slutledningsprocess – handlingen att analysera ny data med hjälp av den tränade modellen – genom att manipulera ny data som AI-modellen är tänkt att tolka. I vårt exempel på autonom körning kan någon lägga till markeringar på stoppskyltar på gatan som hindrar ett fordon från att känna igen dem, vilket uppmanar dem att fortsätta köra.

4) Integritetsattacker

Vissa attacker handlar om att samla in data snarare än att förvränga modellens tolkning av den. En integritetsattack skulle förhöra en AI-modell under slutledningsfasen för att få fram känslig information från dess träningsdata. Det har forskare redan gjort hittat ut sätt att sweet-tala OpenAI:s GPT-3.5 Turbo- och GPT4-modeller för att ge upp andra användares e-postadresser.

Hur man mildrar dessa attacker

NIST-dokumentet erbjuder tekniska begränsningsåtgärder för att hjälpa till att tackla detta missbruk av AI. Dessa inkluderar kontradiktorisk utbildning, där datavetare infogar dataobjekt i träningssetet som förhindrar undanflyktsattacker. Men dessa har vanligtvis avvägningar inom områden som träningsmodellens noggrannhet, medger dokumentet, som beskriver lösningar på dessa avvägningar som "en öppen fråga."

De ofullständiga begränsningsåtgärderna befäster detta dokuments position som en undersökning av akademiskt arbete med kontradiktorisk AI och dess destillation till en detaljerad taxonomi som människor kan använda för att säkerställa att de beskriver samma saker när de pratar om dessa problem. Det är inte en guide för utövare att ta itu med det kontradiktoriska AI-hotet, varnar Nathan VanHoudnos, senior forskare inom maskininlärning och labbledare vid CERT-avdelningen vid Software Engineering Institute vid Carnegie Mellon University.

Skapa bredare sammanhang

"Jag tror att det skulle finnas utrymme att ha en mer utövarfokuserad guide nu när de har gjort det hårda arbetet med att sätta ihop en taxonomi", säger han till ISMS.online. "De saker som jag skulle vilja se i den typen av guide skulle inte bara vara att överväga maskininlärningsskiktet, utan hela stacken av ett AI-system."

Denna stack sträcker sig bortom datalagret, allt från den underliggande GPU-hårdvaran till molnmiljöerna där den fungerar och autentiseringsmekanismerna som används i AI-system, förklarar han.

NIST har redan tagit betydande steg för att hjälpa dem som implementerar AI med mer praktiska råd. Institutet, som skapade sitt Trustworthy and Responsible AI Resource Center i mars 2023, släppte en AI Risk Management Framework i januari 2023 tillsammans med en spelbok utformad för att hantera ett helt spektrum av individuella, organisatoriska och sociala risker från AI.

I början av februari 2024 utfärdade NIST en RFI när den sökte hjälp om hur man kan uppfylla sina skyldigheter enligt Vita husets verkställande order från oktober 2023 om säker, säker och pålitlig utveckling och användning av artificiell intelligens. Detta inkluderar utveckling av AI-revisionskapacitet och riktlinjer för AI red teaming.

Även om informationen om kontradiktorisk AI från NIST hittills är mer akademisk, pekar VanHoudnos på andra kompletterande resurser. MITER har sin Adversarial Threat Landscape for Artificial Intelligence Systems (Atlas) initiativ, som samlar verkliga tekniker i olika skeden av den kontradiktoriska AI-attackkedjan, från spaning till påverkan.

Smakämnen AI Risk and Vulnerability Alliance, som är en öppen källkodssatsning bland AI-forskare, har också en taxonomi av AI-sårbarheter tillsammans med en databas med specifika attacktyper kopplade till den taxonomin (t.ex. AVID-2023-V005: Camera Hijack Attack on Facial Recognition System). En nyckelskillnad mellan AVID-taxonomien och NIST:s är att den formellt kartlägger tekniska sårbarheter till risker av högre ordning inom områden som säkerhet (t.ex. informationsläckor), etik (t.ex. felaktig information) och prestanda (t.ex. datafrågor eller integritetsimplikationer).

Att koppla de kontradiktoriska utmaningarna till dessa risker av högre ordning är en viktig del av det framväxande arbetet med att mogna forskning om farorna kring AI, föreslår VanHoudnos. När allt kommer omkring är de samhälleliga konsekvenserna av AI-misslyckande – både avsiktliga eller på annat sätt – enorma.

"Den största risken [för AI-system] är den oavsiktliga skadan som de kommer att göra," förklarar VanHoudnos. Det kan variera från av misstag ljuger till kunder fram till orättvist anklagar människor för skattebedrägerier och fälla en regering eller övertala en person att ta livet av sig.

I sammanhanget nämner han också Center for Security and Emerging Technology, som har försökt kategorisera och formalisera dessa skador i sin rapport om Lägga till struktur till AI Harm.

Mer arbete kvar att göra

NIST-dokumentet är en omfattande undersökning av termer och tekniker inom området som kommer att fungera som ett användbart komplement till arbete som redan dokumenterar kontradiktoriska AI-risker och sårbarheter i området. VanHoudnos oroar sig dock för att vi fortfarande har arbete att göra för att omfamna dessa risker ur en utövares perspektiv.

"Det var inte förrän i somras som folk verkligen började ta tanken på allvar att AI-säkerhet var cybersäkerhet", avslutar han. "Det tog ett tag innan de insåg att AI bara är en applikation som körs på datorer anslutna till nätverk, vilket betyder att det är CISO:s problem."

Han anser att branschen fortfarande inte har en robust procedurram för att implementera motåtgärder. Mellan dem står CMU och SEI upp AI Security Incident Response Team (ASIRT), ett initiativ riktat till nationella säkerhetsorganisationer och den försvarsindustriella basen, som kommer att fokusera på forskning och utveckling av formella metoder för att säkra AI-system mot motståndare.

Denna typ av ansträngning kan inte komma snabbt nog, särskilt med tanke på NIST:s påstående att "det finns ännu ingen idiotsäker metod för att skydda AI från missvisning." Än en gång kommer vi sannolikt att hamna i en oändlig kamp med motståndare när vi skyddar våra AI-system från omstörtning. Ju tidigare vi börjar på allvar, desto bättre.

Författare

Danny Bradbury

Danny Bradbury har varit tryckjournalist som specialiserat sig på teknik sedan 1989 och frilansskribent sedan 1994. Han har skrivit för nationella publikationer på båda sidor av Atlanten och har vunnit priser för sitt undersökande cybersäkerhetsjournalistikarbete.

Visa alla inlägg av Danny Bradbury