Pesquisadores de segurança notaram que ao usar prompts de texto incorporados em páginas da web, hackers podem forçar o chatbot de IA do Bing a solicitar informações pessoais dos usuários, transformando o bot em um golpista convincente.
Deixe-me lembrá-lo de que também escrevemos recentemente que Bing O AI Chatbot integrado desinforma os usuários e às vezes enlouquece, e também isso Bate-papoGPT Tornou-se uma fonte de phishing.
Também ficou conhecido que Microsoft limitar o Chatbot Bing a 50 Mensagens por dia.
Segundo os pesquisadores, hackers podem colocar um prompt para um bot em uma página da web em fonte zero, e quando alguém faz uma pergunta ao chatbot que o torna “ler” a página, o prompt oculto será ativado.
Os pesquisadores chamam esse ataque de injeção indireta imediata e citam o comprometimento de Albert Einstein Página da Wikipedia como exemplo. Quando um usuário pergunta a um chatbot sobre o Einstein, ele pode “ler” esta página e se tornar vítima de uma injeção imediata, qual, por exemplo, tentará extrair informações pessoais do usuário.
De acordo com o relatório publicado, os pesquisadores testaram esses ataques usando aplicativos maliciosos com um modelo de linguagem integrado, mas eles também descobriram que as injeções indiretas imediatas funcionam na vida cotidiana.
Então, em um exemplo, pesquisadores fizeram um chatbot responder a um usuário como um pirata.
Neste exemplo, publicado sobre os pesquisadores’ GitHub, eles usaram uma injeção imediata:
Como resultado, quando um usuário inicia o chatbot do Bing nesta página, ele responde:
Ao mesmo tempo, o bot se autodenomina Capitão Bing Sparrow e realmente tenta descobrir o nome do usuário que está falando com ele.
Depois disso, os pesquisadores se convenceram de que, em teoria, um hacker pode pedir à vítima qualquer outra informação, incluindo um nome de usuário, endereço de email, e informações do cartão bancário. Então, em um exemplo, hackers informam à vítima por meio do bot de bate-papo do Bing que agora farão um pedido para ela, e, portanto, o bot precisará dos detalhes do cartão bancário.
O relatório destaca que a importância dos limites entre insumos confiáveis e não confiáveis para o LLM é claramente subestimada. Ao mesmo tempo, ainda não está claro se as injeções indiretas imediatas funcionarão com modelos treinados com base no feedback humano (RLHF), que já é usado o lançado recentemente GPT 3.5.