O que são tokens na IA e por que isso importa na hora de escolher um modelo

Tokens são a unidade de medida da IA. Entenda o que são, como funcionam e por que esse número muda tudo na hora de escolher o modelo certo.

O que são tokens na IA e por que isso importa na hora de escolher um modelo

Se você já usou o ChatGPT ou o Claude e percebeu que em algum momento a conversa começou a parecer estranha — o modelo esqueceu algo que você disse lá atrás, repetiu uma informação, ou simplesmente perdeu o fio da meada — você acabou de esbarrar, sem saber, no conceito de token. Este artigo existe para explicar o que é isso de um jeito que qualquer pessoa entende, sem precisar saber programar, sem precisar conhecer matemática e sem precisar ter nenhuma familiaridade com tecnologia além de usar o celular no dia a dia.


Imagine que a IA lê em pedacinhos

Quando você digita uma mensagem para o ChatGPT, a IA não lê o que você escreveu da mesma forma que um ser humano lê. Ela não vê palavras inteiras, frases ou parágrafos. Ela pega o seu texto e o quebra em pedacinhos menores, chamados tokens. Pense nos tokens como as peças de um quebra-cabeça: antes de montar a imagem, você precisa separar todas as peças. A IA faz exatamente isso com o texto — desmonta tudo em pedaços menores antes de começar a processar.

Esses pedacinhos não seguem uma lógica que parece óbvia para nós. Às vezes um token é uma palavra inteira. Às vezes é só metade de uma palavra. Às vezes é um sinal de pontuação. A palavra "gato", por exemplo, é um único token. Já a palavra "extraordinário" pode ser dividida em dois ou três tokens, porque é longa e menos comum.

E aqui tem um detalhe que vale destacar porque a maioria das pessoas nunca para para pensar nisso:

Em inglês, 1 token equivale a aproximadamente 4 caracteres — ou três quartos de uma palavra. Em português, esse número é diferente: palavras mais longas e com mais acentuação tendem a gerar mais tokens do que em inglês. Isso significa que o mesmo texto em português "pesa" mais para a IA do que o mesmo texto em inglês.

Na prática, isso quer dizer que quando você conversa com uma IA em português, você está consumindo mais tokens do que alguém que faz a mesma pergunta em inglês. Não é muito mais — mas é suficiente para fazer diferença em conversas longas ou quando você está pagando pelo uso via API.


A Dory da IA: memória que tem limite

Lembra da Dory, do filme Procurando Nemo? Ela é simpática, esforçada, quer ajudar — mas tem um problema sério: esquece o que aconteceu alguns minutos atrás. Ela não é burra. Ela simplesmente tem uma limitação de memória que não depende da sua vontade.

A janela de contexto de uma IA funciona exatamente assim. É o limite máximo de tokens que o modelo consegue "ter em mente" ao mesmo tempo — tanto o que você escreveu quanto o que ele respondeu. Quando a conversa ultrapassa esse limite, o modelo começa a perder acesso às partes mais antigas da troca. É por isso que, em conversas muito longas, o ChatGPT às vezes parece esquecer instruções que você deu no começo, ou repete algo que já foi dito. Não é descuido. É a Dory entrando em ação.


Quanto cabe em uma janela de contexto?

Para tornar isso concreto, vale colocar números reais na mesa. O ChatGPT com GPT-4o tem uma janela de contexto de 128 mil tokens. O Claude tem uma janela de 200 mil tokens. O Gemini 1.5 Pro, da Google, chegou a 1 milhão de tokens.

Cem tokens equivalem a aproximadamente 75 palavras em inglês — ou cerca de 60 a 65 palavras em português. Com essa proporção, 128 mil tokens equivalem a aproximadamente 80 mil palavras em português. Para ter uma referência do mundo real: um romance médio tem entre 70 mil e 90 mil palavras. Isso significa que o GPT-4o consegue "ter em mente" o equivalente a um livro inteiro de uma vez.


Por que isso muda tudo na hora de escolher um modelo

Agora que você entende o que são tokens e o que é a janela de contexto, a pergunta natural é: por que isso importa para mim, que só quero usar a IA para facilitar minha vida?

A resposta depende do que você quer fazer. Se você usa a IA para responder perguntas rápidas, escrever um e-mail ou resumir um texto curto, a janela de contexto provavelmente nunca vai ser um problema — qualquer modelo moderno tem espaço mais do que suficiente para esse tipo de tarefa. Mas os casos onde o limite começa a doer são mais comuns do que parecem.

Imagine que você quer usar a IA para analisar um processo jurídico inteiro — com petição inicial, contestação, réplica, laudos periciais, sentenças e recursos. Esse tipo de processo pode facilmente ter milhares de páginas e dezenas de citações cruzadas entre documentos. Ou imagine que você é médico e quer que a IA analise o histórico completo de um paciente com anos de consultas, exames e prescrições. Ou que você é pesquisador e quer que o modelo leia e conecte cinquenta artigos científicos ao mesmo tempo. Nesses casos, a janela de contexto deixa de ser um detalhe técnico e vira o fator que decide se a ferramenta funciona ou não para o seu uso.

Pense assim: se o modelo tiver uma janela pequena, ele vai precisar ler o processo em pedaços — e quando estiver lendo o final, já terá "esquecido" o começo. É como pedir para alguém analisar um documento enquanto você vai virando as páginas na frente dele sem deixar ele voltar: ele vai perder conexões importantes entre o que está no início e o que está no final.


O detalhe que a maioria das pessoas não percebe

Existe um ponto sobre tokens que quase ninguém menciona fora dos círculos técnicos, e que é importante para qualquer pessoa que usa IA no dia a dia: a janela de contexto conta tanto o que você escreve quanto o que a IA responde. Não é só a sua mensagem que ocupa espaço — cada resposta que o modelo gera também consome tokens da janela disponível.

Isso significa que em uma conversa longa, onde você faz muitas perguntas e o modelo dá respostas detalhadas, o espaço disponível vai sendo consumido dos dois lados ao mesmo tempo. É como uma lousa que você e seu interlocutor estão usando juntos: cada vez que um dos dois escreve algo, a lousa fica um pouco mais cheia. Quando a lousa enche, o que foi escrito primeiro começa a ser apagado para abrir espaço para o novo.


Tokens e dinheiro: a conta que as empresas fazem

Para quem usa a IA apenas pelo aplicativo no celular ou pelo site, os tokens são invisíveis — você paga uma assinatura mensal e não precisa se preocupar com a contagem. Mas para empresas que integram a IA diretamente em seus produtos e sistemas, os tokens são a unidade de cobrança. Você paga por cada token que entra e por cada token que sai.

O GPT-4o cobra $2,50 por milhão de tokens de entrada e $10,00 por milhão de tokens de saída. O Claude 3.7 Sonnet cobra $3,00 por milhão de tokens de entrada e $15,00 por milhão de tokens de saída. Para uma pessoa usando a IA casualmente, esses números são irrelevantes — uma conversa típica usa alguns milhares de tokens, o que representa frações de centavo. Mas para uma empresa que processa milhões de documentos por mês usando IA, a escolha do modelo e a eficiência no uso de tokens pode representar a diferença entre uma operação lucrativa e uma que sangra dinheiro.


O resumo que você pode explicar para qualquer pessoa

Se você precisasse explicar tokens para alguém em três frases, seria assim. Tokens são os pedacinhos em que a IA divide o texto antes de processá-lo — pense neles como as peças de um quebra-cabeça de palavras. A janela de contexto é o limite de quantos desses pedacinhos a IA consegue ter em mente ao mesmo tempo — é a memória da Dory: funciona bem, mas tem um limite. E quanto maior essa janela, mais texto a IA consegue analisar de uma vez sem perder o fio da conversa — o que importa muito quando você precisa trabalhar com documentos longos, processos complexos ou conversas que duram horas.


FAQ — As perguntas que você provavelmente está se fazendo agora


A pontuação — vírgula, ponto final, aspas — ajuda a IA a entender melhor minha dúvida?

Sim, mas não da forma que você imagina. A IA não "lê" pontuação como um professor de português que vai riscar seu texto com caneta vermelha. Ela processa a pontuação como tokens — pedacinhos de informação que ajudam o modelo a identificar onde uma ideia termina e outra começa. Uma vírgula bem colocada pode separar duas ideias que, sem ela, o modelo interpretaria como uma coisa só. Dito isso, a IA moderna é surpreendentemente boa em entender intenção mesmo com pontuação imperfeita. Não se preocupe em escrever como um gramático — escreva com clareza.


Dar espaços com Enter no meu prompt ajuda a IA a entender melhor?

Sim, e mais do que você pensa. Quebras de linha funcionam como separadores visuais que ajudam o modelo a identificar blocos distintos de informação. Se você está fazendo uma pergunta com várias partes, separar cada parte em um parágrafo diferente tende a produzir respostas mais organizadas e completas do que jogar tudo em um bloco único de texto. Não é uma regra absoluta — mas é um hábito que melhora a qualidade das respostas de forma consistente.


Como posso reduzir o uso de tokens?

A forma mais eficiente é ser direto. Prompts longos com muita introdução, contexto desnecessário e repetição consomem tokens sem agregar qualidade à resposta. Se você está em uma conversa longa e percebe que o modelo está começando a perder o fio, considere iniciar uma nova conversa com um resumo do contexto essencial — em vez de continuar acumulando tokens numa janela que está chegando ao limite. Para quem usa a API e paga por token, outra estratégia é usar modelos menores e mais baratos para tarefas simples, reservando os modelos maiores para tarefas que realmente exigem profundidade.


Escrevo mal. Meus textos são menos compreensíveis para humanos do que para a IA. Isso está relacionado a como a IA processa tokens?

Essa é uma das perguntas mais interessantes que alguém pode fazer sobre IA — e a resposta vai te surpreender. Sim, está relacionado, mas de uma forma que joga a favor de quem escreve mal. A IA foi treinada com uma quantidade absurda de texto humano — incluindo textos com erros de ortografia, gramática quebrada, gírias, abreviações e construções que nenhum professor aprovaria. Isso a torna extraordinariamente tolerante a imperfeições. O modelo não processa tokens buscando "texto correto" — ele busca padrões de intenção. Na prática, isso significa que uma pergunta com erros de digitação, sem acentos e com gramática torta ainda vai ser entendida com alta precisão. Escreva como você escreve. A IA aguenta.


Se o tamanho da janela de contexto importa tanto, por que a IA não resume a conversa sozinha, joga fora o que não é mais necessário e diminui os tokens consumidos?

Essa é a pergunta de um milhão de dólares — e a resposta honesta é: algumas IAs já fazem isso, mas é muito mais difícil do que parece. O problema central é que o modelo não sabe o que vai ser importante mais tarde. Imagine que você está no começo de uma conversa e menciona de passagem que tem alergia a amendoim. Dez mensagens depois, você pede uma sugestão de receita. Se o modelo tivesse "jogado fora" aquela informação inicial por parecer irrelevante, ele poderia sugerir algo com amendoim sem saber que não deveria. Decidir o que descartar exige julgamento — e julgamento errado pode quebrar a coerência da conversa de formas que o usuário não percebe imediatamente, mas que aparecem em respostas estranhas ou contraditórias. Algumas implementações já usam técnicas de compressão de contexto — resumindo partes antigas da conversa em vez de descartá-las — mas é uma área ainda em desenvolvimento ativo. Por enquanto, a solução mais confiável continua sendo a mais simples: quando a conversa ficar muito longa, comece uma nova.


Agora que você entende o que são tokens, o próximo artigo desta série vai fazer muito mais sentido: uma análise comparativa entre Claude e ChatGPT — com testes reais em casos de uso específicos — para ajudar você a decidir qual modelo usar dependendo do que você precisa fazer.


Receba toda semana uma análise técnica de ferramentas de IA diretamente no seu e-mail — sem filtro de algoritmo, sem conteúdo genérico. Assine a newsletter do ângulo.ai.


Referências