Deep Neural Networks (DNNS) hanno guidato notevoli progressi nell’elaborazione del linguaggio naturale (NLP), alimentazione di applicazioni come CHATGPT e sistemi di moderazione dei contenuti automatizzati. Tuttavia, la vulnerabilità di questi modelli agli attacchi contraddittori rimane una preoccupazione urgente. A differenza delle immagini, in cui le lievi modifiche sono spesso impercettibili, il testo opera in uno spazio discreto, rendendo anche notevoli per piccole alterazioni per i lettori umani. Ciò rappresenta una sfida per gli attacchi contraddittori, che tradizionalmente si basano su parole, personaggi o intere frasi modificanti per manipolare le uscite del modello NLP.
Un recente studio chiamato “Emoke-Attack: attacchi avversari zero-perturbazione ai sistemi NLP tramite sequenze di emoji“Guidato da Yangshijie Zhang dell’Università di Lanzhou introduce un metodo di attacco non convenzionale: Attacco emotivo. Questa tecnica sfrutta sequenze di emoji Per manipolare i sistemi NLP senza alterare il testo di base, raggiungendo ciò che i ricercatori chiamano a Attacco avversario zero-perturbazione. Lo studio dimostra che gli emoji posizionati strategicamente possono ingannare anche i modelli linguistici di grandi dimensioni (LLMS) all’avanguardia GPT-4O, Sonetto Claude 3.5 e Llama-3.1-70brivelando una vulnerabilità nascosta nella comprensione del linguaggio da parte dell’IA.
Il potere nascosto degli emoji negli attacchi NLP
Gli attacchi avversari tradizionali modificano parole o caratteri per alterare l’interpretazione di un modello di AI di un testo. Tuttavia, tali cambiamenti spesso innescano meccanismi di rilevamento o rendono il testo innaturale. Attacco emotivo adotta un approccio diverso: invece di cambiare le parole, lo introduce sequenze di emoji prima e dopo una frase. Queste aggiunte influenzano sottilmente il modo in cui i modelli NLP interpretano il testo, senza interrompere la sua leggibilità per gli utenti umani.
Ad esempio, considera un sistema di analisi del sentimento che classifica le recensioni dei clienti come positive o negative. L’aggiunta di alcuni emoji all’inizio o alla fine di una frase può spingere l’IA verso una classificazione diversa. Una semplice viso sorridente o emoji di fuoco potrebbe far sembrare positiva una recensione neutrale, mentre una faccia che piange potrebbe spingerlo verso la negatività. Poiché gli emoji sono spesso trattati come token separati nei modelli NLP, creano cambiamenti inaspettati nel ragionamento interno del modello.
I modelli AI multilingue pensano in inglese?
Come funziona Emo-Attack
I ricercatori hanno progettato Un quadro di attacco a disturbo zero-perturbazioneil che significa che il testo fondamentale rimane invariato mentre l’attacco manipola il processo decisionale dell’IA attraverso gli emoji. Il processo prevede:
- Costruire uno spazio di sequenza emoji: Il metodo di attacco seleziona da un pool di emoji Unicode (😊🔥💔) e emoticon ASCII (:-);-P QAQ). Queste sequenze sono progettate per influenzare sottilmente le previsioni del modello.
- Incorporare la coerenza emotiva: Per mantenere la furtività, le sequenze di emoji si allineano al sentimento del testo originale, assicurando che non sembrino fuori posto.
- Posizionamento di emoji strategici: Gli emoji sono piazzati prima e dopo Il testo target, creando perturbazioni che spostano il comportamento del modello senza sollevare sospetti.
Usando ottimizzazione basata su logitl’attacco identifica quali combinazioni di emoji hanno maggiori probabilità di influenzare la decisione di un’intelligenza artificiale mantenendo la coerenza.
I modelli NLP sono altamente vulnerabili
Per testare Emoke-Attack, i ricercatori hanno condotto esperimenti su due set di dati di riferimento: Vai emozioneun set di dati con etichette emotive a grana fine e Tweet Emojiuna raccolta di tweet contenenti vari emoji e marcatori di sentimenti. L’attacco è stato testato contro due modelli tradizionali NLP (Bert e Roberta) e cinque Modelli in linguaggio di grandi dimensioni (LLM): Qwen2.5-7b-instruct, llama3-8b-instruct, GPT-4o, claude 3.5 sonetto e gemini-exp-1206.
Attacchi i tassi di successo (ASR) su diversi modelli
Lo studio ha misurato il Tasso di successo di attacco (ASR)— Quanto spesso il modello ha cambiato la sua classificazione quando sono stati aggiunti gli emoji. I risultati sono stati sorprendenti. Modelli tradizionali come Bert e Roberta hanno mostrato tassi ASR fino al 96%dimostrando che anche i robusti classificatori della PNL possono essere ingannati con il minimo sforzo. Anche i modelli di linguaggio di grandi dimensioni (LLM) hanno mostrato un’alta suscettibilità, con GPT-4O ha manipolato il 79% delle volte E Claude 3,5 sonetto all’82%. Il modello più vulnerabile era Qwen2.5-7b-instruct, con un ASR al 95% sul set di dati emoji tweet. Ciò dimostra che anche i sistemi di intelligenza artificiale più avanzati lottano per filtrare la manipolazione contraddittoria quando sono coinvolti gli emoji.
Perché i modelli AI sono così facilmente ingannati dagli emoji?
I modelli di intelligenza artificiale sono particolarmente vulnerabili agli attacchi a base di emoji a causa di problemi di tokenizzazione, ambiguità semantica, pregiudizio dei dati di addestramento e eccessizione su segnali contestuali. La maggior parte dei modelli NLP tratta gli emoji come token separati, bypassing di modelli linguistici che normalmente filtrerebbero l’influenza contraddittoria. Inoltre, gli emoji trasportano un significato soggettivo: un’emoji “Fire” (🔥) potrebbe indicare l’eccitazione in un contesto ma il pericolo in un altro. Questa ambiguità rende i modelli NLP vulnerabili agli attacchi mirati a base di emoji.
Molti LLM sono addestrati sul testo di Internet, dove gli emoji modellano spesso il sentimento. Gli aggressori possono sfruttare questo pregiudizio usando gli emoji in modi che l’IA ha imparato ad associare a emozioni o significati specifici. Poiché gli emoji appaiono spesso accanto al linguaggio informale, i modelli di intelligenza artificiale in sovrappeso al loro significato, rendendoli un obiettivo facile per la manipolazione.
I risultati di questo studio sollevano serie preoccupazioni sulla sicurezza e l’affidabilità dei modelli di intelligenza artificiale, in particolare nelle applicazioni ad alto contenuto di poste. In moderazione del contenutogli aggressori potrebbero bypassare i filtri aggiungendo emoji dall’aspetto innocuo per sfuggire al rilevamento. In Assistenza clienti automatizzataI sistemi di analisi dei sentimenti potrebbero essere ingannati in fraintensili errati come feedback positivi, portando a false analisi. Allo stesso modo, Gli attacchi contraddittori a base di emoji potrebbero essere armonizzati per diffondere notizie manipolate o interpretazioni distorte del contenuto. Queste vulnerabilità sottolineano il Urgente necessità di migliori difese contro gli attacchi contraddittorisoprattutto perché l’IA continua a svolgere un ruolo fondamentale nei sistemi decisionali.
L’IA può essere addestrata per difendersi dagli attacchi emotivi?
I ricercatori propongono diverse contromisure per mitigare gli attacchi contraddittori a base di emoji. I modelli NLP dovrebbero essere addestrati con esplicito Dati emoji contraddittori riconoscere i tentativi di manipolazione. L’IA dovrebbe analizzare interazioni full text-emoji piuttosto che trattare gli emoji come token isolati. Implementazione Filtro o normalizzazione emoji può ridurre la dipendenza dall’intelligenza artificiale dai segnali contraddittori. In ambienti ad alto contenuto di poste, La verifica umana dovrebbe integrare il processo decisionale dell’IA.
Una piccola emoji, una grande minaccia
Lo studio di Yangshijie Zhang e colleghi dell’Università di Lanzhou evidenziano a punto cieco critico nella sicurezza dell’IA. Mentre gli emoji sono spesso licenziati come decorazioni digitali giocose, si presentano una grave minaccia avversaria ai modelli NLP. Attacco emotivo lo dimostra Anche i modelli AI più avanzati non sono immuni alle sottili tecniche di manipolazione.
Credito immagine in primo piano: Domingo Alvarez E/Unsplash