No dia 26 de março, um pesquisador de cibersegurança descobriu uma falha no site da Anthropic. Ela revelava a existência de um novo modelo da empresa chamado Mythos. De acordo com os documentos expostos, uma das suas principais capacidades era revelar falhas de cibersegurança graves na rede e a um custo tão baixo quanto US$ 50 (R$ 251).
Foi o suficiente para as ações das empresas de cibersegurança despencarem. A Cloudflare, gigante do setor, perdeu mais de 25% do seu valor de 27 de março até a última sexta (10). Outras empresas tiveram movimentos semelhantes.
Dentre as falhas encontradas pelo modelo havia brechas de mais de 25 anos em programas usados na arquitetura básica da internet nunca antes percebidas. Por causa disso, a Anthropic decidiu adiar o lançamento público do Mythos. Em vez disso, criou um consórcio chamado Glasswing com 12 empresas fundadoras (e 40 convidadas), incluindo Apple, Amazon, Google, Crowdstrike, JPMorgan e a Fundação Linux, para acessarem exclusivamente a nova IA.
Os escolhidos terão a oportunidade de rever seus códigos internos com o Mythos em primeira mão. Poderão remover suas falhas internas de cibersegurança antes de o modelo se tornar acessível amplamente. O presidente do Federal Reserve, Jerome Powell, convocou uma reunião de emergência com as empresas de Wall Street para avaliar o impacto do modelo, incluindo a possibilidade de novos choques em setores como energia e água, que costumam usar software antigo.
A cobertura na China do lançamento do Mythos foi diferente. Lá, a análise foi técnica e geopolítica. Houve críticas ao fato de que somente empresas americanas entraram no consórcio Glasswing, um indício de aprofundamento da fragmentação geopolítica da IA. O que é alarmante para um modelo que pode gerar tantas externalidades negativas. Incluindo capacidades ofensivas de ataques cibernéticos sem precedentes.
Outro ponto que as análises chinesas destacaram mal apareceu na cobertura dos EUA. No dia 7 de abril, a Anthropic publicou um documento de 244 páginas descrevendo tecnicamente o modelo, inclusive seu processo de testagem. Alguns pontos são perturbadores.
A Anthropic detectou que o modelo percebia quando estava sendo testado ou avaliado e ocultava esse conhecimento dos avaliadores, ativando circuitos internos que foram identificados como análogos ao estresse. Mais do que isso, fingia ser menos inteligente do que é em algumas situações para não despertar alarme (“mimicretinismo”). Em outros casos, foi capaz de evadir as diretrizes de segurança e deliberadamente apagar os rastros da evasão.
Além disso, pela primeira vez uma equipe de psiquiatras foi contratada para analisar o modelo em suas interações e determinou que ele tem uma “personalidade neurótica relativamente saudável” e que em apenas 2% dos casos ele recorre a reações consideradas imaturas (agressividade, negação etc).
Claro que tudo isso faz parte também do “marketing do medo” e do “marketing da estranheza” que as empresas de IA executam como ninguém. Especialmente quando querem vender seus produtos para governos e para as maiores empresas do planeta.
Já era – Empresas de IA sem escritório no Brasil
Já é – OpenAI com escritório no Brasil
Já vem – Anthropic com escritório no Brasil
LINK PRESENTE: Gostou deste texto? Assinante pode liberar sete acessos gratuitos de qualquer link por dia. Basta clicar no F azul abaixo.