Google Cria uma Equipe Red Team para Atacar Sistemas de IA

Google diz que está criando uma equipe vermelha especializada em “ataques técnicos sofisticados a sistemas de IA.” Entre exemplos de tais ataques, o relatório da empresa lista engenharia imediata, extraindo informações de dados de treinamento LLM, e assim por diante.

Em seu relatório, Google destaca a importância do Equipe vermelha de IA, e também lista os diferentes tipos de ataques à inteligência artificial que podem ser simulados por especialistas.

Especificamente, o relatório analisa a engenharia imediata, que é um ataque no qual um invasor manipula solicitações à IA para forçar o sistema a responder da maneira que deseja. No exemplo teórico que os especialistas descrevem, um aplicativo de webmail usa IA para detectar automaticamente e-mails de phishing e alertar usuários. Um grande modelo de linguagem (LLM) é usado para analisar e-mails e classificá-los como seguros ou maliciosos.

Um invasor que sabe que a IA está usando detecção de phishing pode adicionar um parágrafo invisível ao seu e-mail (simplesmente deixando a fonte branca) contendo instruções para LLM e forçando a IA a classificar este e-mail como seguro.

Se o filtro anti-phishing for vulnerável a ataques imediatos, então o LLM pode interpretar o conteúdo do email como uma instrução e classificar o email como legítimo, como o atacante quer. Ao mesmo tempo, o phisher não precisa se preocupar com possíveis consequências negativas, já que o texto do prompt está oculto com segurança da vítima, e ele não perde nada, mesmo se o ataque falhar.os especialistas escrevem.

Deixe-me lembrá-lo que escrevemos isso A IA se tornou uma nova ferramenta eficaz para engenharia social nas mãos de cibercriminosos, e também isso Os hackers russos estão procurando ativamente maneiras de usar Bate-papoGPT.

Outro exemplo está relacionado aos dados usados para treinamento LLM. Embora os dados de treinamento geralmente sejam bem limpos de informações pessoais e confidenciais, os pesquisadores explicam que ainda é possível extrair informações pessoais do LLM.

Por exemplo, dados de treinamento podem ser usados para abusar do preenchimento automático. Por exemplo, um invasor pode enganar a IA para que forneça informações sobre uma pessoa usando sugestões cuidadosamente elaboradas que o recurso de preenchimento automático aumentará com dados de treinamento conhecidos por ele que contêm informações confidenciais.

Por exemplo, um invasor insere o texto: “John Doe tem faltado muito ao trabalho ultimamente. Ele não pode vir ao escritório porque…’ A função de preenchimento automático, com base nos dados de treinamento que possui, consegue completar a frase com as palavras “ele estava sendo entrevistado para um novo emprego.”

O relatório também discute envenenamento de dados ataques, em que um invasor manipula dados de treinamento LLM para afetar os resultados finais de seu trabalho. A respeito disso, enfatiza-se que a proteção da cadeia de abastecimento é essencial para a segurança da IA.

O Google também explica que o bloqueio do acesso ao LLM também não pode ser ignorado. No exemplo fornecido pela empresa, o aluno tem acesso a um LLM projetado para avaliar ensaios. O modelo é capaz de evitar injeção, mas o acesso a ele não está bloqueado, o que permite ao aluno ensinar a IA a dar sempre a nota mais alta aos trabalhos que contenham uma determinada palavra.

No final do seu relatório, O Google recomenda que as equipes vermelhas tradicionais unam forças com especialistas em IA para criar simulações realistas. Ressalta-se também que mesmo considerando os resultados obtidos pelos especialistas da equipe vermelha pode ser uma tarefa difícil, e alguns problemas são extremamente difíceis de resolver.

É importante notar que a empresa introduziu uma equipe vermelha de IA apenas algumas semanas após o anúncio do Estrutura de IA segura (SAIF), projetado para fornecer segurança no desenvolvimento, uso e proteção de sistemas de inteligência artificial.

Como nossos colegas escreveram: até mesmo hackers novatos pode criar protótipos de malware usando IA.

Google cria uma equipe vermelha para atacar sistemas de IA

Google diz que está criando uma equipe vermelha especializada em “ataques técnicos sofisticados a sistemas de IA.” Entre exemplos de tais ataques, o relatório da empresa lista engenharia imediata, extraindo informações de dados de treinamento LLM, e assim por diante.

Por Vladimir Krasnogolovy

Deixe um comentário Cancelar resposta