O Google lançou o Gemini 3.1 Pro, modelo de inteligência artificial que atingiu 77,1% no ARC-AGI-2, um teste que avalia a capacidade de resolver problemas completamente novos. O resultado representa um salto de mais de 46 pontos percentuais em relação ao antecessor, que marcou apenas 31,1% no mesmo benchmark.
O ARC-AGI-2 é considerado um dos testes mais difíceis para sistemas de linguagem porque exige raciocínio abstrato, algo como pedir para alguém resolver um tipo de quebra-cabeça que nunca viu antes. A maioria dos modelos atuais vai bem em perguntas que lembram o que já existe na internet, mas trava quando precisa pensar de forma original. Esse salto indica que o Google conseguiu avançar justamente nesse ponto fraco.
O novo modelo mantém capacidade de processar até 1 milhão de tokens de uma vez, o equivalente a ler cerca de 750 mil palavras sem esquecer o começo do texto. É como se você pudesse entregar dez livros inteiros para a IA e pedir que ela encontrasse conexões entre o primeiro capítulo do livro um e o último do livro dez. A capacidade de resposta também é robusta: até 64 mil tokens de saída, algo em torno de 48 mil palavras por resposta.
O preço permanece em 2 dólares por milhão de tokens de entrada e 12 dólares por milhão na saída, o mesmo do modelo anterior. Segundo o Google, o Gemini 3.1 Pro supera o Claude Opus 4.6 e o GPT-4o na maioria dos testes públicos, mas perde para o modelo da Anthropic em tarefas que simulam trabalho com documentos de escritório, como planilhas e relatórios. O lançamento acontece em meio a uma disputa acirrada entre as três gigantes pelo mercado de modelos avançados.
Para quem usa ferramentas de IA no trabalho ou nos estudos, a novidade significa respostas mais inteligentes em situações que exigem raciocínio e não apenas repetição de padrões. O modelo já está disponível no Google AI Studio, no Vertex AI e integrado ao GitHub Copilot, plataforma popular entre programadores.
Análise Crítica
O Google destaca a vitória nos benchmarks públicos, mas admite perder para o Claude em tarefas de documentos corporativos, justamente o cenário mais comum no uso empresarial. Se a maioria dos clientes pagantes usa IA para processar planilhas, contratos e relatórios, essa limitação pode pesar mais do que o número impressionante no ARC-AGI-2. A pergunta que fica: será que o benchmark que o Google venceu reflete de fato o uso real ou apenas uma vitória de marketing?
A visão do canal Invente com IA
Para o desenvolvedor brasileiro que já usa o GitHub Copilot, a integração direta pode acelerar a escrita de código com menos erros lógicos. Já para empresas que dependem de automação de documentos, vale esperar testes independentes antes de migrar do Claude. O preço em dólar continua salgado para quem fatura em real, então a conta de custo-benefício precisa considerar se o salto em raciocínio abstrato faz diferença na sua rotina específica.




