Por que não avaliamos mais o SWE-bench Verified

23/02/2026

3 visualizações

3 min de leitura

O SWE-bench Verified, um benchmark amplamente utilizado para avaliar o progresso de modelos de IA em tarefas de codificação e engenharia de software, está enfrentando críticas crescentes e foi descontinuado como uma métrica confiável por seus desenvolvedores. A principal razão para essa decisão é a "contaminação" progressiva do conjunto de dados, que leva a uma medição imprecisa do avanço dos modelos de linguagem grandes (LLMs) na engenharia de software. Análises detalhadas revelaram que o SWE-bench Verified contém testes falhos e, mais significativamente, sofre de "vazamento de treinamento" (training leakage). Isso significa que partes do benchmark ou informações relacionadas a ele podem ter sido inadvertidamente incluídas nos dados de treinamento de muitos LLMs, permitindo que os modelos "memorizem" soluções em vez de realmente desenvolverem habilidades de raciocínio e codificação. Consequentemente, os resultados obtidos neste benchmark não refletem o verdadeiro progresso na capacidade de resolução de problemas de engenharia de software dos LLMs. Para superar essas limitações e fornecer uma avaliação mais robusta e precisa, os desenvolvedores recomendam a transição para o SWE-bench Pro, uma versão aprimorada que busca mitigar esses problemas e oferecer um desafio mais autêntico para a próxima geração de modelos de IA.

Espaço para anúncio

Configure VITE_ADSENSE_CLIENT_ID

O SWE-bench Verified, um benchmark proeminente no campo da inteligência artificial para avaliar o desempenho de modelos de linguagem grandes (LLMs) em tarefas de engenharia de software e codificação, não é mais considerado uma métrica confiável para medir o progresso de ponta. Os desenvolvedores do benchmark anunciaram que estão descontinuando sua avaliação devido a problemas crescentes de "contaminação" e medição imprecisa do avanço. A análise aprofundada realizada pelos criadores do SWE-bench revelou duas questões críticas que comprometem a validade do SWE-bench Verified. Em primeiro lugar, foram identificados "testes falhos" dentro do conjunto de dados. Esses testes podem não estar avaliando corretamente as capacidades de codificação dos modelos ou podem conter ambiguidades que levam a resultados enganosos. Testes inadequados podem inflar artificialmente as pontuações dos modelos ou, inversamente, subestimar suas verdadeiras habilidades. Em segundo lugar, e talvez o mais significativo, a análise apontou para a ocorrência de "vazamento de treinamento" (training leakage). Este fenômeno ocorre quando os dados de treinamento utilizados para desenvolver os LLMs contêm informações que são direta ou indiretamente derivadas do próprio benchmark. Isso significa que os modelos podem ter sido expostos às soluções ou a padrões específicos dos problemas do SWE-bench Verified durante sua fase de treinamento. Como resultado, os modelos podem estar "memorizando" as respostas ou aprendendo a reconhecer as características dos problemas em vez de desenvolverem uma compreensão genuína e a capacidade de resolver problemas de engenharia de software de forma independente. O vazamento de treinamento distorce fundamentalmente a avaliação do progresso. Se um modelo obtém uma pontuação alta em um benchmark devido ao vazamento de treinamento, ele não está demonstrando uma capacidade superior de raciocínio ou resolução de problemas, mas sim uma familiaridade prévia com o conjunto de dados de teste. Isso impede uma avaliação precisa das verdadeiras capacidades de codificação e engenharia de software dos LLMs e dificulta a identificação de avanços genuínos na área. Diante dessas descobertas, os desenvolvedores do SWE-bench recomendam enfaticamente a transição para uma nova versão, o "SWE-bench Pro". O SWE-bench Pro foi projetado para mitigar os problemas de contaminação e vazamento de treinamento, oferecendo um conjunto de dados mais robusto e um ambiente de avaliação mais rigoroso. O objetivo é fornecer uma plataforma mais justa e precisa para medir o progresso real dos modelos de IA em tarefas complexas de engenharia de software, garantindo que as pontuações reflitam as capacidades intrínsecas dos modelos e não artefatos do processo de treinamento ou falhas no design do benchmark.

Espaço para anúncio

Configure VITE_ADSENSE_CLIENT_ID