Seu Hub de Inteligência Artificial

Seu Hub de Inteligência Artificial

Banner Completo Noticias

Gemini 3.1 Pro salta de 31% para 77% em teste de raciocínio

Novo modelo do Google mais que dobra desempenho em benchmark que mede capacidade de resolver problemas inéditos, mantendo o mesmo preço

O Google lançou o Gemini 3.1 Pro, modelo de inteligência artificial que atingiu 77,1% no ARC-AGI-2, um teste que avalia a capacidade de resolver problemas completamente novos. O resultado representa um salto de mais de 46 pontos percentuais em relação ao antecessor, que marcou apenas 31,1% no mesmo benchmark.

O ARC-AGI-2 é considerado um dos testes mais difíceis para sistemas de linguagem porque exige raciocínio abstrato, algo como pedir para alguém resolver um tipo de quebra-cabeça que nunca viu antes. A maioria dos modelos atuais vai bem em perguntas que lembram o que já existe na internet, mas trava quando precisa pensar de forma original. Esse salto indica que o Google conseguiu avançar justamente nesse ponto fraco.

O novo modelo mantém capacidade de processar até 1 milhão de tokens de uma vez, o equivalente a ler cerca de 750 mil palavras sem esquecer o começo do texto. É como se você pudesse entregar dez livros inteiros para a IA e pedir que ela encontrasse conexões entre o primeiro capítulo do livro um e o último do livro dez. A capacidade de resposta também é robusta: até 64 mil tokens de saída, algo em torno de 48 mil palavras por resposta.

O preço permanece em 2 dólares por milhão de tokens de entrada e 12 dólares por milhão na saída, o mesmo do modelo anterior. Segundo o Google, o Gemini 3.1 Pro supera o Claude Opus 4.6 e o GPT-4o na maioria dos testes públicos, mas perde para o modelo da Anthropic em tarefas que simulam trabalho com documentos de escritório, como planilhas e relatórios. O lançamento acontece em meio a uma disputa acirrada entre as três gigantes pelo mercado de modelos avançados.

Para quem usa ferramentas de IA no trabalho ou nos estudos, a novidade significa respostas mais inteligentes em situações que exigem raciocínio e não apenas repetição de padrões. O modelo já está disponível no Google AI Studio, no Vertex AI e integrado ao GitHub Copilot, plataforma popular entre programadores.

Análise Crítica

O Google destaca a vitória nos benchmarks públicos, mas admite perder para o Claude em tarefas de documentos corporativos, justamente o cenário mais comum no uso empresarial. Se a maioria dos clientes pagantes usa IA para processar planilhas, contratos e relatórios, essa limitação pode pesar mais do que o número impressionante no ARC-AGI-2. A pergunta que fica: será que o benchmark que o Google venceu reflete de fato o uso real ou apenas uma vitória de marketing?

A visão do canal Invente com IA

Para o desenvolvedor brasileiro que já usa o GitHub Copilot, a integração direta pode acelerar a escrita de código com menos erros lógicos. Já para empresas que dependem de automação de documentos, vale esperar testes independentes antes de migrar do Claude. O preço em dólar continua salgado para quem fatura em real, então a conta de custo-benefício precisa considerar se o salto em raciocínio abstrato faz diferença na sua rotina específica.

Compartilhe este artigo

Foto de Cassiano Bassil

Cassiano Bassil

Cassiano Bassil é especialista em marketing digital e inteligência artificial, com mais de 25 anos de experiência nas áreas de comunicação, design, publicidade e estratégia digital. Fundador da Invente Comunicação e co-criador do projeto Invente com IA, onde compartilha análises, ferramentas e aplicações práticas de inteligência artificial para profissionais e empresas.
Compartilhe:

Entre para o Grupo VIP

Esteja um passo à frente. Receba o resumo diário de IA antes de todo mundo.

TV INVENTE

Banner Laterial Noticias

Bem-vindo ao Invente com IA

ou

Ao se cadastrar, você concorda com os [Termos de Serviço] e a [Política de Privacidade].