Google diz que está criando uma equipe vermelha especializada em “ataques técnicos sofisticados a sistemas de IA.” Entre exemplos de tais ataques, o relatório da empresa lista engenharia imediata, extraindo informações de dados de treinamento LLM, e assim por diante.
Em seu relatório, Google destaca a importância do Equipe vermelha de IA, e também lista os diferentes tipos de ataques à inteligência artificial que podem ser simulados por especialistas.
Especificamente, o relatório analisa a engenharia imediata, que é um ataque no qual um invasor manipula solicitações à IA para forçar o sistema a responder da maneira que deseja. No exemplo teórico que os especialistas descrevem, um aplicativo de webmail usa IA para detectar automaticamente e-mails de phishing e alertar usuários. Um grande modelo de linguagem (LLM) é usado para analisar e-mails e classificá-los como seguros ou maliciosos.
Um invasor que sabe que a IA está usando detecção de phishing pode adicionar um parágrafo invisível ao seu e-mail (simplesmente deixando a fonte branca) contendo instruções para LLM e forçando a IA a classificar este e-mail como seguro.
Deixe-me lembrá-lo que escrevemos isso A IA se tornou uma nova ferramenta eficaz para engenharia social nas mãos de cibercriminosos, e também isso Os hackers russos estão procurando ativamente maneiras de usar Bate-papoGPT.
Outro exemplo está relacionado aos dados usados para treinamento LLM. Embora os dados de treinamento geralmente sejam bem limpos de informações pessoais e confidenciais, os pesquisadores explicam que ainda é possível extrair informações pessoais do LLM.
Por exemplo, dados de treinamento podem ser usados para abusar do preenchimento automático. Por exemplo, um invasor pode enganar a IA para que forneça informações sobre uma pessoa usando sugestões cuidadosamente elaboradas que o recurso de preenchimento automático aumentará com dados de treinamento conhecidos por ele que contêm informações confidenciais.
Por exemplo, um invasor insere o texto: “John Doe tem faltado muito ao trabalho ultimamente. Ele não pode vir ao escritório porque…’ A função de preenchimento automático, com base nos dados de treinamento que possui, consegue completar a frase com as palavras “ele estava sendo entrevistado para um novo emprego.”
O relatório também discute envenenamento de dados ataques, em que um invasor manipula dados de treinamento LLM para afetar os resultados finais de seu trabalho. A respeito disso, enfatiza-se que a proteção da cadeia de abastecimento é essencial para a segurança da IA.
O Google também explica que o bloqueio do acesso ao LLM também não pode ser ignorado. No exemplo fornecido pela empresa, o aluno tem acesso a um LLM projetado para avaliar ensaios. O modelo é capaz de evitar injeção, mas o acesso a ele não está bloqueado, o que permite ao aluno ensinar a IA a dar sempre a nota mais alta aos trabalhos que contenham uma determinada palavra.
No final do seu relatório, O Google recomenda que as equipes vermelhas tradicionais unam forças com especialistas em IA para criar simulações realistas. Ressalta-se também que mesmo considerando os resultados obtidos pelos especialistas da equipe vermelha pode ser uma tarefa difícil, e alguns problemas são extremamente difíceis de resolver.
É importante notar que a empresa introduziu uma equipe vermelha de IA apenas algumas semanas após o anúncio do Estrutura de IA segura (SAIF), projetado para fornecer segurança no desenvolvimento, uso e proteção de sistemas de inteligência artificial.
Como nossos colegas escreveram: até mesmo hackers novatos pode criar protótipos de malware usando IA.