Chegou o GPT-5.4... mas e daí?

Chegou o GPT-5.4... mas e daí?

"Mas eu me contento com o GPT-3": o custo oculto de não migrar de modelo


Em 5 de março de 2026, a OpenAI lançou o GPT-5.4 com a descrição oficial de "nosso modelo frontier mais capaz e eficiente para trabalho profissional." A imprensa de tecnologia cobriu o lançamento com o entusiasmo de praxe. Benchmarks foram publicados, comparações foram feitas, threads no X explodiram. E então, como acontece a cada novo lançamento, uma parcela significativa dos profissionais de tecnologia encolheu os ombros e voltou ao trabalho — com o mesmo modelo de sempre.

Esse encolher de ombros tem um custo. E ele raramente aparece onde as pessoas procuram.


O que mudou, de verdade — e o que cada coisa significa

Antes de entrar nos números, vale parar em três termos que aparecem em todo artigo sobre o GPT-5.4 e que a maioria das publicações usa sem explicar: reasoning, uso agentic e coding (SWE-Bench). Para quem não vive dentro do ecossistema de IA, esses termos soam como jargão de marketing. Não são.

Reasoning — ou raciocínio encadeado — é a capacidade do modelo de resolver problemas que exigem múltiplos passos lógicos antes de chegar a uma resposta. Não é simplesmente "responder perguntas difíceis". É a diferença entre um modelo que te dá uma resposta plausível de imediato e um modelo que pensa em voz alta, reconsidera premissas, identifica contradições e chega a uma conclusão mais robusta. Pense em como um advogado analisa um contrato versus como alguém lê o mesmo documento por cima. O reasoning é o equivalente computacional da análise cuidadosa.

Uso agentic é a capacidade do modelo de executar sequências de ações de forma autônoma, sem que um humano precise intervir a cada passo. Um agente não apenas responde — ele age. Ele abre um navegador, preenche um formulário, lê o resultado, decide o próximo passo, envia um e-mail, verifica se o e-mail chegou. É a diferença entre um assistente que te diz o que fazer e um assistente que faz por você. O benchmark que mede isso no mundo real é o OSWorld-Verified, que coloca o modelo diante de um computador real e pede que ele complete tarefas usando teclado, mouse e screenshots — exatamente como um humano faria.

Coding (SWE-Bench) é o benchmark mais próximo do trabalho real de um desenvolvedor. O modelo recebe bugs reais de repositórios públicos do GitHub — problemas que existiram de verdade em projetos reais — e precisa corrigi-los sem ajuda humana. Não é um exercício de completar código. É diagnóstico, análise de contexto, escrita de solução e verificação. O percentual de acerto é o percentual de bugs que o modelo resolve corretamente do início ao fim.

Com esses três conceitos claros, a tabela comparativa abaixo passa a fazer sentido real.


O que tem de tão especial no GPT-5.4

O número que mais importa nessa tabela não é o de reasoning — o GPT-5.2 já estava perto do teto nesse quesito, com 92,4% no GPQA Diamond. O número que importa é o 75,0% no OSWorld-Verified, que representa a primeira vez que um modelo de propósito geral da OpenAI supera o desempenho humano médio em operação de computador. O humano médio no mesmo benchmark marca 72,4%. Essa inversão não é incremental — é estrutural.

Para entender o que isso significa na prática, pense em qualquer tarefa que você delega a um assistente humano: abrir um sistema, preencher um formulário, extrair dados de uma planilha, enviar um e-mail com o resultado. O GPT-5.4 faz isso. Não via integração customizada, não via API específica de cada sistema — via screenshots e comandos de teclado e mouse, exatamente como um humano faria. É a primeira vez que a OpenAI entrega isso em um modelo de uso geral, sem necessidade de ferramentas externas.

O segundo número relevante é o salto no GDPval: de 70,9% para 83,0% em uma única geração. O GDPval não é um benchmark acadêmico — ele testa o modelo em 44 profissões reais, de contador a engenheiro de manufatura, comparando o output do modelo com o que um profissional humano produziria para a mesma tarefa. Um salto de 12 pontos percentuais em uma geração, em um benchmark desse tipo, é o tipo de dado que muda decisões de contratação em empresas que já estão usando IA em produção.

O terceiro elemento relevante é estrutural e raramente aparece nas coberturas: o GPT-5.4 é o primeiro modelo da família GPT-5 que unifica o que antes eram produtos separados. O GPT-5.3-Codex era especializado em programação. O GPT-5.2 era o modelo de raciocínio geral. O GPT-5.4 absorve os dois e ainda adiciona computer use nativo. Para quem constrói produtos sobre a API, isso elimina uma camada inteira de decisão arquitetural — qual modelo chamar para qual tipo de tarefa — e simplifica o código de orquestração de forma significativa.


"Mas eu me contento com o GPT-3"

Essa frase circula em grupos de tecnologia com uma frequência que surpreende quem acompanha o ecossistema de perto. Ela carrega um pressuposto que parece razoável na superfície — "funciona para o meu caso de uso, por que mudar?" — mas esconde um problema que não aparece na fatura da API.

O primeiro problema é factual: o GPT-3 não existe mais como produto acessível. A API do GPT foi desativada pela OpenAI em janeiro de 2024. Quem ainda cita o GPT-3 como referência está, na melhor das hipóteses, usando o GPT-3.5 via algum wrapper de terceiro, ou confundindo nomenclaturas. O modelo original não está disponível diretamente há mais de dois anos.

O segundo problema é mais sutil e mais caro. Cada limitação de um modelo defasado gera o que engenheiros chamam de overhead de compensação — código escrito não para resolver o problema do negócio, mas para contornar as limitações do modelo. Janela de contexto pequena? A equipe constrói pipelines de chunking para quebrar documentos em pedaços menores. Sem reasoning nativo? Os prompts ficam maiores e mais elaborados para guiar o modelo passo a passo. Sem capacidade agentica? Você escreve orquestração manual para cada sequência de ações que o modelo não consegue executar sozinho.

Esse overhead não aparece como linha de custo no orçamento. Ele aparece no backlog de engenharia, nas horas de sprint gastas em infraestrutura que não entrega valor direto ao usuário, e no débito técnico que se acumula silenciosamente até o dia em que a equipe decide migrar — e descobre que precisa reescrever uma camada inteira de código que existia apenas para compensar o modelo anterior.

A frase "me contento com o GPT-3" é, na prática, "me contento com o overhead que construí para fazer o GPT-3 funcionar." E esse overhead tem um custo real que a maioria das equipes nunca calculou.


Vale a pena migrar? A resposta honesta

Depende do que você está construindo — e essa é a única resposta honesta.

Se o seu uso é geração de texto simples, sem raciocínio encadeado, sem execução autônoma de tarefas e com custo de API como restrição crítica, o GPT-4o Mini ainda entrega valor real a um custo muito menor. Não existe obrigação de usar o modelo mais recente para todo caso de uso, e qualquer artigo que diga o contrário está vendendo algo.

Mas se você está construindo qualquer coisa que envolva agentes — sistemas que executam sequências de ações sem intervenção humana a cada passo — a diferença entre 47% e 75% de sucesso em tarefas agenticas não é uma melhoria incremental. É a diferença entre um produto que funciona e um que falha em um quarto das execuções. Em produção, com usuários reais, essa diferença é inaceitável.

O mesmo raciocínio se aplica a produtos que processam documentos longos. A janela de contexto de 1 milhão de tokens no GPT-5.4 via API elimina categorias inteiras de engenharia de workaround que equipes inteiras passaram meses construindo sobre o GPT-4. Se o seu produto faz análise de contratos, processamento de relatórios extensos ou qualquer coisa que exija manter contexto longo, a migração já se pagou antes de você calcular o ROI.

Há também um dado que a maioria dos artigos ignora: o GPT-5.4 usa significativamente menos tokens para resolver o mesmo problema que o GPT-5.2. A OpenAI reporta redução de 47% no custo de tokens em workflows com uso intenso de ferramentas, graças ao novo mecanismo de Tool Search. Na prática, o custo efetivo por tarefa pode ser menor do que o preço por token sugere à primeira vista — especialmente em sistemas com muitas ferramentas disponíveis, onde o modelo agora busca as definições sob demanda em vez de carregar todas no prompt.


Preços reais — sem surpresa

O GPT-5.4 padrão custa $2,50 por milhão de tokens de input e $15,00 por milhão de tokens de output na API. Para contextos acima de 272K tokens, o preço de input sobe para $5,00. O GPT-5.4 Pro — voltado para casos de uso de máxima performance, como modelagem financeira complexa ou workflows agenticos de alto risco — custa $30,00 de input e $180,00 de output. Batch processing custa metade da taxa padrão, o que torna o GPT-5.4 consideravelmente mais acessível para processamento em volume. O GPT-5.2 permanece disponível na seção Legacy até 5 de junho de 2026.


FAQ

O GPT-3 ainda funciona? A API do GPT-3 foi desativada pela OpenAI em janeiro de 2024. Quem ainda usa "GPT-3" na prática está acessando o GPT-3.5 via wrapper de terceiro ou confundindo nomenclaturas. O modelo original não está mais disponível diretamente.

Qual modelo usar em 2026? Para uso geral, agentes e contexto longo: GPT-5.4. Para geração de texto simples com restrição de custo: GPT-4o Mini. Para máxima performance em tarefas críticas de alto valor: GPT-5.4 Pro.

Como migrar sem quebrar minha aplicação? O GPT-5.4 segue o padrão de identificadores gpt-5.x da API. A migração é uma troca de model identifier no código. O GPT-5.2 permanece disponível na seção Legacy até junho de 2026, o que dá tempo para testes paralelos antes da transição definitiva.


Gostou da análise? A newsletter do Ângulo.ai traz toda semana esse tipo de leitura técnica — sem hype, sem jargão vazio, com perspectiva de quem constrói produtos reais com IA. [Assine aqui.]