Quando a IA Parar de Aprender com Humanos, o Que Ela Vai Aprender?

Quando a IA Parar de Aprender com Humanos, o Que Ela Vai Aprender?


Existe uma data de vencimento silenciosa gravada no núcleo de todos os grandes modelos de linguagem que usamos hoje. Não está nos papers, não aparece nos changelogs e certamente não consta nos decks de pitch das big techs. Mas qualquer engenheiro que já colocou a mão em um pipeline de treinamento sabe que ela existe: o momento em que a internet deixa de ser um espelho da inteligência humana e passa a ser, majoritariamente, um reflexo de si mesma.

Chegamos a esse ponto mais rápido do que a maioria imaginava.


O corpus que alimentou a revolução

Para entender o problema, é preciso entender de onde veio a matéria-prima. O GPT-3, lançado em 2020, foi treinado em aproximadamente 570 GB de texto filtrado da internet — décadas de produção humana comprimidas em vetores matemáticos¹. Fóruns de discussão, artigos científicos, romances, código-fonte, threads de Reddit, manuais técnicos, críticas de cinema, receitas de bolo. Tudo isso junto formou o que os pesquisadores chamam de Common Crawl, o maior snapshot da cognição humana coletiva já capturado.

O que esses modelos aprenderam, no fundo, foi o padrão estatístico de como humanos pensam, argumentam, erram e se corrigem. A criatividade que admiramos no ChatGPT, no Claude, no Gemini não é criatividade no sentido filosófico — é a destilação de bilhões de momentos de criatividade humana, reorganizados por atenção e gradiente descendente. É uma biblioteca que aprendeu a escrever novos livros no estilo de todos os livros que já leu.

O problema começa quando essa biblioteca passa a ler os próprios livros que escreveu.


O tsunami que já chegou

Entre 2022 e 2025, a produção de conteúdo gerado por IA na internet cresceu em ordens de magnitude. Um estudo da Graphite.io, que analisou uma amostra aleatória de 65.000 artigos em inglês extraídos do Common Crawl, encontrou um dado que deveria ter gerado muito mais debate: em novembro de 2024, a quantidade de artigos gerados por IA ultrapassou pela primeira vez a quantidade de artigos escritos por humanos². A metodologia é rigorosa — os pesquisadores utilizaram o detector de IA da Surfer SEO, validado com taxa de falso negativo de apenas 0,6% para conteúdo gerado por GPT-4o, e falso positivo de 4,2% sobre artigos pré-ChatGPT. O resultado é difícil de contestar.

Isso significa que o próximo grande ciclo de treinamento — os modelos que serão lançados nos próximos anos — vai ingerir um corpus onde uma fração crescente do texto foi produzida por modelos anteriores. Não por humanos. Por máquinas que imitam humanos que imitavam outras coisas.

O fenômeno tem nome técnico: model collapse. E foi documentado empiricamente.


O que a ciência já sabe sobre colapso de modelos

Em julho de 2024, pesquisadores das universidades de Oxford, Cambridge, Imperial College London e da Universidade de Toronto publicaram na Nature um paper que deveria ter gerado muito mais barulho do que gerou. Shumailov et al. demonstraram, em condições controladas, o que acontece quando modelos são treinados iterativamente em dados gerados por modelos anteriores: as distribuições de saída se estreitam progressivamente³. O paper descreve o efeito com precisão cirúrgica — "o uso indiscriminado de conteúdo gerado por modelos no treinamento causa defeitos irreversíveis nos modelos resultantes, nos quais as caudas da distribuição original do conteúdo desaparecem."

Eventos raros desaparecem primeiro. Depois, a variância geral colapsa. O modelo se torna mais fluente, mais coerente, mais "correto" em termos superficiais. E simultaneamente mais previsível, mais mediano, menos capaz de produzir algo genuinamente inesperado.

A analogia mais precisa que conheço é a de uma fotocópia de fotocópia. A primeira geração perde um pouco de nitidez. A segunda, um pouco mais. Na décima, o texto ainda é legível, mas os detalhes finos — a textura, as nuances, os erros que davam personalidade ao original — desapareceram completamente.

O que os modelos perdem primeiro não é a gramática. É a estranheza. É a capacidade de raciocinar fora da distribuição esperada.


O que isso significa na prática para quem constrói produtos

Aqui é onde a conversa muda de tom filosófico para engenharia real.

Se você está construindo um produto sobre LLMs hoje — seja um copiloto de código, um assistente de análise de dados, um gerador de relatórios — você está apostando implicitamente que os modelos de base continuarão melhorando. Que o GPT-5 será melhor que o GPT-4, que o Claude 4 será melhor que o Claude 3. Essa aposta tem sido segura nos últimos três anos. Mas ela pressupõe que o sinal de treinamento continua rico, diverso e genuinamente humano.

Se o model collapse se materializar em escala, o que você vai observar não é uma degradação catastrófica e óbvia. É uma degradação sutil e insidiosa. Os modelos vão continuar respondendo bem às perguntas comuns. Vão continuar gerando código funcional para padrões conhecidos. Mas vão começar a falhar de formas estranhas em problemas que exigem raciocínio lateral, analogias incomuns, síntese de domínios distantes. Exatamente o tipo de problema que justifica pagar por um modelo de fronteira em vez de usar um modelo open-source de 2023.

A pergunta que todo arquiteto de produto deveria estar fazendo agora não é "qual modelo usar". É "de onde vêm os dados de treinamento desse modelo, e qual é a proporção de conteúdo sintético nesse corpus".


A resposta da indústria — e por que ela é insuficiente

As grandes labs não estão ignorando o problema. A OpenAI, a Anthropic e o Google DeepMind investem pesado em data curation — processos de filtragem que tentam identificar e remover conteúdo de baixa qualidade ou gerado por IA antes do treinamento. Técnicas de data provenance, que rastreiam a origem de cada exemplo no corpus, estão se tornando parte do pipeline padrão.

Mas há um limite estrutural nessa abordagem: ela é reativa. Você filtra o que já existe. E o que já existe está crescendo exponencialmente em direção ao sintético. É como tentar manter a pureza de um aquífero enquanto a chuva ácida aumenta de intensidade a cada ano.

A resposta mais interessante que está emergindo — e que ainda está longe do mainstream — é a valorização deliberada de dados humanos verificados como ativo estratégico. Empresas como a Scale AI e a Appen já perceberam isso: o human-labeled data de alta qualidade, que antes era commodity, está se tornando escasso e, portanto, valioso. Não é coincidência que as maiores labs estejam firmando contratos de longo prazo com editoras, jornais e plataformas de conteúdo profissional — exatamente as fontes que ainda produzem texto com a irregularidade, a contradição e a originalidade que só o pensamento humano gera.


O paradoxo que ninguém quer nomear

Existe uma ironia profunda no centro de tudo isso. A IA generativa foi vendida, entre outras coisas, como uma ferramenta para democratizar a produção de conteúdo. E cumpriu essa promessa — reduziu drasticamente o custo marginal de produzir texto, imagem e código. Mas ao fazer isso em escala, ela está corroendo a própria base que a tornou possível.

É um problema de commons. Cada empresa que usa IA para gerar conteúdo em escala está consumindo um recurso coletivo — o corpus de escrita humana autêntica — sem repor nada equivalente. Individualmente, a decisão faz sentido. Coletivamente, ela destrói o ecossistema.

A criatividade da IA, como a conhecemos hoje, é uma função direta da criatividade humana acumulada. Não existe atalho para isso. Não existe como treinar um modelo genuinamente criativo em dados produzidos por modelos que foram treinados para imitar criatividade. O sinal se degrada a cada iteração³.


O que vem depois

Não tenho uma resposta definitiva para o que os modelos de 2030 vão parecer se o problema não for resolvido. Mas tenho uma hipótese de trabalho: eles vão ser extraordinariamente bons em tarefas bem definidas e progressivamente piores em tarefas que exigem pensamento original. Vão dominar o centro da distribuição e perder as caudas. Vão ser mais seguros, mais previsíveis, mais alinhados — e menos surpreendentes.

O que me parece certo é que o próximo salto qualitativo em IA não vai vir de mais parâmetros ou mais compute. Vai vir de quem resolver o problema de proveniência e qualidade de dados em escala. De quem conseguir garantir que o sinal de treinamento ainda carrega a textura do pensamento humano real — com seus erros, suas contradições, suas associações improváveis.

E existe uma consequência prática disso que raramente é dita em voz alta: humanos que continuam escrevendo, criando e publicando com voz própria — sem delegar tudo para assistentes de IA — estão, sem saber, preservando o recurso mais escasso do próximo ciclo de treinamento.

A ironia final é que o maior argumento técnico para você continuar escrevendo com a sua própria voz é que, sem ela, os modelos do futuro terão menos de onde aprender.


Se você quer receber análises técnicas como essa antes de todo mundo, a newsletter do DataEmpire chega toda semana direto no seu inbox. Sem ruído, sem resumo de notícias que você já viu — só perspectiva técnica real.


Referências

[1] Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165. Disponível em: arxiv.org/abs/2005.14165

[2] Paredes, J. L., Smith, E., Druck, G., & Benson, B. (2025). More Articles Are Now Created by AI Than Humans. Graphite.io Research. Metodologia: amostra aleatória de 65.000 artigos em inglês extraídos do Common Crawl, publicados entre janeiro de 2020 e maio de 2025, classificados pelo detector de IA da Surfer SEO. Disponível em: graphite.io/five-percent/more-articles-are-now-created-by-ai-than-humans

[3] Shumailov, I., Shumaylov, Z., Zhao, Y., Papernot, N., Anderson, R., & Gal, Y. (2024). AI models collapse when trained on recursively generated data. Nature, 631(8022), 755–759. DOI: 10.1038/s41586-024-07566-y. PMID: 39048682. Publicado em 24 de julho de 2024.