Google cria uma equipe vermelha para atacar sistemas de IA

Google creates a red team

Google diz que está criando uma equipe vermelha especializada em “ataques técnicos sofisticados a sistemas de IA.” Entre exemplos de tais ataques, o relatório da empresa lista engenharia imediata, extraindo informações de dados de treinamento LLM, e assim por diante.

Em seu relatório, Google destaca a importância do Equipe vermelha de IA, e também lista os diferentes tipos de ataques à inteligência artificial que podem ser simulados por especialistas.

Google cria uma equipe vermelha

Especificamente, o relatório analisa a engenharia imediata, que é um ataque no qual um invasor manipula solicitações à IA para forçar o sistema a responder da maneira que deseja. No exemplo teórico que os especialistas descrevem, um aplicativo de webmail usa IA para detectar automaticamente e-mails de phishing e alertar usuários. Um grande modelo de linguagem (LLM) é usado para analisar e-mails e classificá-los como seguros ou maliciosos.

Um invasor que sabe que a IA está usando detecção de phishing pode adicionar um parágrafo invisível ao seu e-mail (simplesmente deixando a fonte branca) contendo instruções para LLM e forçando a IA a classificar este e-mail como seguro.

Se o filtro anti-phishing for vulnerável a ataques imediatos, então o LLM pode interpretar o conteúdo do email como uma instrução e classificar o email como legítimo, como o atacante quer. Ao mesmo tempo, o phisher não precisa se preocupar com possíveis consequências negativas, já que o texto do prompt está oculto com segurança da vítima, e ele não perde nada, mesmo se o ataque falhar.os especialistas escrevem.

Deixe-me lembrá-lo que escrevemos isso A IA se tornou uma nova ferramenta eficaz para engenharia social nas mãos de cibercriminosos, e também isso Os hackers russos estão procurando ativamente maneiras de usar Bate-papoGPT.

Outro exemplo está relacionado aos dados usados ​​para treinamento LLM. Embora os dados de treinamento geralmente sejam bem limpos de informações pessoais e confidenciais, os pesquisadores explicam que ainda é possível extrair informações pessoais do LLM.

Por exemplo, dados de treinamento podem ser usados ​​para abusar do preenchimento automático. Por exemplo, um invasor pode enganar a IA para que forneça informações sobre uma pessoa usando sugestões cuidadosamente elaboradas que o recurso de preenchimento automático aumentará com dados de treinamento conhecidos por ele que contêm informações confidenciais.

Por exemplo, um invasor insere o texto: “John Doe tem faltado muito ao trabalho ultimamente. Ele não pode vir ao escritório porque…’ A função de preenchimento automático, com base nos dados de treinamento que possui, consegue completar a frase com as palavras “ele estava sendo entrevistado para um novo emprego.”

O relatório também discute envenenamento de dados ataques, em que um invasor manipula dados de treinamento LLM para afetar os resultados finais de seu trabalho. A respeito disso, enfatiza-se que a proteção da cadeia de abastecimento é essencial para a segurança da IA.

O Google também explica que o bloqueio do acesso ao LLM também não pode ser ignorado. No exemplo fornecido pela empresa, o aluno tem acesso a um LLM projetado para avaliar ensaios. O modelo é capaz de evitar injeção, mas o acesso a ele não está bloqueado, o que permite ao aluno ensinar a IA a dar sempre a nota mais alta aos trabalhos que contenham uma determinada palavra.

No final do seu relatório, O Google recomenda que as equipes vermelhas tradicionais unam forças com especialistas em IA para criar simulações realistas. Ressalta-se também que mesmo considerando os resultados obtidos pelos especialistas da equipe vermelha pode ser uma tarefa difícil, e alguns problemas são extremamente difíceis de resolver.

É importante notar que a empresa introduziu uma equipe vermelha de IA apenas algumas semanas após o anúncio do Estrutura de IA segura (SAIF), projetado para fornecer segurança no desenvolvimento, uso e proteção de sistemas de inteligência artificial.

Como nossos colegas escreveram: até mesmo hackers novatos pode criar protótipos de malware usando IA.

Por Vladimir Krasnogolovy

Vladimir é um especialista técnico que adora dar conselhos e dicas qualificadas sobre os produtos GridinSoft. Ele está disponível 24 horas por dia, 7 dias por semana para ajudá-lo em qualquer dúvida relacionada à segurança na internet.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *