Revisão recente de vulnerabilidades na estrutura Ray descobriu a falha não corrigida, apelidado de ShadowRay. Parece que centenas de clusters de aprendizado de máquina já foram comprometidos, levando ao vazamento de ativos de ML. Os pesquisadores traçam o primeiro ataque que usou esta vulnerabilidade em setembro 2023, significa que a vulnerabilidade já circula há mais de meio ano.
Vulnerabilidade Shadow Ray permite RCE
Raio, uma das estruturas de IA de código aberto mais populares, contém uma vulnerabilidade grave, com centenas de casos de exploração conhecidos no momento. A pesquisa da Oligo Security revela a história peculiar de CVE-2023-48022: foi originalmente detectado junto com outros quatro em dezembro 2023. Enquanto em qualquer escala, o desenvolvedor, consegui consertar o resto muito rapidamente, um se tornou assunto de discussões. Os desenvolvedores afirmaram que é um comportamento intencional e não um bug, recusando-se a resolver o problema.
CVE-2023-48022, cunhou ShadowRay, é uma falha de execução remota de código que decorre da falta de autorização na API Jobs. Na verdade, este último permite que qualquer pessoa crie empregos para o cluster após acessar o painel. Entre os trabalhos possíveis está a execução de código – uma função que os usuários precisam com frequência no fluxo de trabalho típico. Na verdade, esse foi o ponto de controvérsia quando outra equipe de pesquisa descobriu a falha no 2023. Anyscale insiste que a segurança em torno da estrutura e todos os seus ativos devem ser estabelecidos pelos usuários.
Vulnerabilidades de execução remota de código são um dos mais graves que existem, pois na verdade permitem a execução simultânea de código em várias máquinas. Neste caso específico, não são as estações de trabalho que estão em perigo, mas clusters de ML, com todo o poder de computação e dados que eles têm.
Quão crítica é essa falha?
Como eu disse, a estrutura Ray está entre os mais populares para lidar com cargas de trabalho de IA. Entre seus usuários estão nomes barulhentos como Amazonas, Netflix, Uber, Spotify, LinkedIn e OpenAI, embora existam centenas e milhares de empresas menores. Seu repositório GitHub possui mais de 30 mil estrelas, o que significa que a contagem total de usuários definitivamente excede esse número. Então sim, a superfície de ataque é bastante significativa.
Coisas muito piores surgem quando pensamos sobre o que exatamente está comprometido. Quando comparado com estações de trabalho, redes corporativas e servidores, clusters de aprendizado de máquina são completamente diferentes. Eles são sistemas poderosos, com hardware orientado a cargas de trabalho de ML e dados relacionados, como tokens de acesso, credenciais para os aplicativos conectados, e assim por diante. Numerosos sistemas que mantêm essas informações estão interligados usando a estrutura Ray. Então uma exploração bem sucedida de ShadowRay efetivamente equivale a acessar a totalidade de tudo isso.
Apesar de ser orientado para cargas de trabalho de IA, hardware, mais especificamente GPUs, ainda podem ser usados para outras cargas de trabalho. Em particular, ao acessar o cluster de ML, as fraudes podem implantar malware de mineração de moedas que encheria suas bolsas às custas da empresa vítima. Mas o que é mais preocupante aqui é a possibilidade de vazamento do conjunto de dados. Muitas empresas aprendem suas IAs usando seus próprios desenvolvimentos exclusivos, ou a seleção de dados cuidadosamente escolhidos. Vazamento de segredos corporativos pode ser crítico para grandes empresas, e fatal para os menores.
Vulnerabilidade ShadowRay explorada na natureza
A parte mais infeliz sobre a falha do ShadowRay é que já é explorado em ataques do mundo real. Além disso, os hackers provavelmente o exploraram muito antes de sua descoberta. A pesquisa original diz que os primeiros casos de exploração aconteceram em setembro 2023. No entanto, eles não pararam, pois também houve ataques que aconteceram há menos de um mês – no final de fevereiro 2024.
Entre as consequências visíveis do ataque estavam mineradores de moedas maliciosos que exploraram o poderoso hardware de clusters hackeados. Hackers particularmente implantados XMRig, Mineiros maliciosos NBMiner e Zephyr. Todos eles estavam fugindo da terra, o que significa que a análise estática era praticamente inútil contra este malware.
Menos óbvio, mas potencialmente mais crítico foi o vazamento de dados mantidos nos clusters. Não estou falando apenas dos conjuntos de dados, mas também workflow related information, como senhas, credenciais, fichas de acesso, e até mesmo acesso a ambientes em nuvem. A partir deste ponto de vista, isso é bastante semelhante a comprometer um servidor que lida com o fluxo de trabalho de uma equipe de desenvolvimento de software.
Correções ShadowRay não estão disponíveis
Como mencionei acima, Anyscale não concorda com a definição de autenticação de entrada ausente na API Jobs como vulnerabilidade. Eles acreditam que o usuário deve se preocupar com a segurança do framework Ray. E eu concordo um pouco com isso, com apenas uma ressalva: a necessidade de um aviso visível sobre tal “recurso” durante a configuração. Quando se trata da escala do OpenAI ou Netflix, tais deficiências são inaceitáveis.
No momento, a melhor mitigação é filtrar o acesso ao painel. Um firewall configurado corretamente vai se encaixar bem para esse propósito. Especialistas também oferecem para configurar a autenticação para a porta Ray Dashboard (8265), corrigindo efetivamente a vulnerabilidade.
Use soluções de segurança avançadas que serão capazes de detectar ameaças à memória e também malware no disco. Em quase todos os casos de ataque, adversários não deixaram nenhum arquivo no disco, realizando o ataque no formato LOTL. Soluções EDR/XDR pode parecer caro, mas recuperar todos os ativos da empresa após o hackeamento custa mais, tanto em termos monetários como de reputação.