llms.txt: o arquivo que diz a IA o que sua empresa faz
Apenas 10.13% dos dominios tem o arquivo llms.txt. Entenda o que e, como funciona, quais motores de IA o leem e como implementar no seu site hoje.
O que e o llms.txt
O llms.txt e um arquivo em formato Markdown posicionado na raiz do seu dominio (seusite.com.br/llms.txt) que funciona como um guia para modelos de linguagem. Enquanto o robots.txt diz aos crawlers o que nao acessar, o llms.txt diz aos LLMs o que acessar e como interpretar o conteudo do seu site.
A proposta foi formalizada por Jeremy Howard (fundador da fast.ai) em setembro de 2024 e ganhou tracao rapida. A ideia e simples: LLMs nao navegam sites como humanos. Eles nao clicam em menus, nao interpretam layouts e nao seguem hierarquias visuais. Precisam de um mapa direto, em texto puro, que indique quais paginas sao relevantes e o que cada uma contem.
O arquivo segue uma estrutura minimalista: um titulo com o nome da empresa, uma descricao curta, e uma lista curada de 20 a 50 URLs com descricoes contextuais. Nao e um sitemap XML -- e uma curadoria intencional do conteudo que voce quer que a IA leia e cite.
Os numeros: quase ninguem tem, quase todos bloqueiam
Um estudo da SE Ranking analisou mais de 300.000 dominios e encontrou que apenas 10.13% possuem um arquivo llms.txt. Isso significa que quase 90% dos sites na web nao tem nenhum mecanismo para comunicar seu conteudo diretamente a motores de IA.
O cenario fica mais critico quando olhamos o outro lado: os bloqueios. Segundo dados da Originality.ai e Dark Visitors, 62% dos publishers bloqueiam o GPTBot (crawler da OpenAI) via robots.txt. Para o ClaudeBot (Anthropic), o numero sobe para 69%. Esses bloqueios sao compreensivos -- editoras querem proteger seu conteudo de ser usado para treinamento sem remuneracao -- mas criam um paradoxo para marcas comerciais.
Se voce e uma empresa que quer ser encontrada e recomendada por IAs, bloquear crawlers de LLM e o equivalente a colocar um cadeado na porta da sua loja. O llms.txt resolve esse problema de forma cirurgica: voce escolhe exatamente quais paginas a IA pode ler, sem abrir acesso irrestrito ao seu conteudo inteiro.
Quais motores de IA leem o llms.txt
Nem todos os LLMs processam o llms.txt da mesma forma, e e importante saber quem efetivamente o utiliza.
Claude (Anthropic) e o motor com a integracao mais direta. A documentacao da Anthropic confirma que o Claude busca e processa o llms.txt quando disponivel, usando-o como contexto prioritario para entender o que uma empresa faz e quais paginas sao mais relevantes.
Perplexity tambem le o llms.txt ativamente. Como o Perplexity faz crawling ao vivo para cada resposta, o arquivo funciona como um atalho que direciona o motor para as paginas mais importantes, aumentando a probabilidade de citacao com link.
ChatGPT tem suporte parcial. Versoes com browsing habilitado podem acessar o llms.txt, mas nao ha confirmacao oficial da OpenAI de que o arquivo e tratado com prioridade. Na pratica, nossos testes mostram que sites com llms.txt tem citacoes mais precisas no ChatGPT -- menos alucinacoes sobre o que a empresa faz.
Google Gemini e AIO nao documentam suporte ao llms.txt, mas o Google ja implementou suporte a arquivos de contexto para IA em outros produtos, o que sugere que o reconhecimento e questao de tempo.
Estrutura ideal: o que colocar no arquivo
Um llms.txt eficaz nao e uma lista de todas as paginas do seu site. E uma curadoria estrategica de 20 a 50 links que representam o melhor do seu conteudo, organizados por relevancia.
A estrutura recomendada segue este formato: comece com o nome da empresa e uma descricao de uma linha sobre o que ela faz. Em seguida, organize os links em categorias logicas como "Produtos", "Casos de Uso", "Documentacao Tecnica" e "Sobre a Empresa". Cada link deve ter uma descricao contextual curta -- nao basta listar URLs.
Priorize paginas que contem informacao unica e proprietaria. Estudos de caso com dados reais, paginas de produto com especificacoes tecnicas, artigos com pesquisas originais e paginas institucionais com posicionamento claro. Evite listar paginas genericas como "Termos de Uso" ou "Politica de Privacidade" -- elas nao ajudam a IA a entender o que sua empresa faz.
Atualize o arquivo sempre que publicar conteudo relevante novo. Um llms.txt desatualizado e melhor que nenhum, mas um llms.txt atualizado trimestralmente maximiza a relevancia das citacoes.
O conceito de Business-to-Agent (B2A)
O llms.txt e a manifestacao mais concreta de um conceito emergente: Business-to-Agent, ou B2A. Tradicionalmente, empresas comunicam com consumidores (B2C) ou com outras empresas (B2B). Com a ascensao dos agentes de IA como intermediarios de decisao, surge uma terceira categoria: a comunicacao com agentes automatizados que influenciam decisoes de compra.
Quando um usuario pergunta ao Claude "qual a melhor plataforma de ecommerce para lojas de moda?", o Claude se torna um agente que media a relacao entre o usuario e as marcas. A resposta que ele da nao e publicidade -- e uma recomendacao baseada no conteudo que ele conseguiu processar. Marcas com llms.txt bem estruturado fornecem ao agente informacao clara e hierarquizada, aumentando a probabilidade de serem recomendadas.
O B2A nao substitui o B2C ou o B2B. Ele adiciona uma camada: alem de convencer o humano, voce precisa convencer o agente que vai informar o humano. O llms.txt e a ferramenta mais direta para isso. E gratuito, leva menos de uma hora para implementar e coloca sua marca a frente de 90% dos concorrentes que ainda nao tem.
Como o TIDEX trabalha com llms.txt
O pipeline de visibilidade do TIDEX inclui a analise e geracao do llms.txt como parte do processo de otimizacao. Durante o diagnostico, verificamos se o dominio do cliente ja possui o arquivo, analisamos sua estrutura e identificamos gaps -- paginas criticas que deveriam estar listadas mas nao estao.
Para clientes enterprise, o TIDEX gera um llms.txt otimizado com base na analise de quais paginas sao mais citadas pelos 9 motores de IA monitorados. Isso inverte a logica: em vez de adivinhar quais paginas listar, usamos dados reais de citacao para priorizar o conteudo que os motores ja consideram relevante -- e adicionar o conteudo que deveria ser relevante mas esta sendo ignorado.
A implementacao e simples: o arquivo gerado e colocado na raiz do dominio e o impacto pode ser medido no ciclo seguinte de monitoramento. Em nossos testes, dominios que implementaram llms.txt otimizado tiveram aumento mensuravel na precisao das citacoes -- menos casos de IA "inventando" o que a empresa faz e mais citacoes alinhadas com o posicionamento real da marca.