Lançamentos

Por que não avaliamos mais o SWE-bench Verified

23/02/2026
3 visualizações
3 min de leitura
OpenAI Blog
Por que não avaliamos mais o SWE-bench Verified

O SWE-bench Verified, um benchmark amplamente utilizado para avaliar o progresso de modelos de IA em tarefas de codificação e engenharia de software, está enfrentando críticas crescentes e foi descontinuado como uma métrica confiável por seus desenvolvedores. A principal razão para essa decisão é a "contaminação" progressiva do conjunto de dados, que leva a uma medição imprecisa do avanço dos modelos de linguagem grandes (LLMs) na engenharia de software. Análises detalhadas revelaram que o SWE-bench Verified contém testes falhos e, mais significativamente, sofre de "vazamento de treinamento" (training leakage). Isso significa que partes do benchmark ou informações relacionadas a ele podem ter sido inadvertidamente incluídas nos dados de treinamento de muitos LLMs, permitindo que os modelos "memorizem" soluções em vez de realmente desenvolverem habilidades de raciocínio e codificação. Consequentemente, os resultados obtidos neste benchmark não refletem o verdadeiro progresso na capacidade de resolução de problemas de engenharia de software dos LLMs. Para superar essas limitações e fornecer uma avaliação mais robusta e precisa, os desenvolvedores recomendam a transição para o SWE-bench Pro, uma versão aprimorada que busca mitigar esses problemas e oferecer um desafio mais autêntico para a próxima geração de modelos de IA.

Espaço para anúncio

Configure VITE_ADSENSE_CLIENT_ID

O SWE-bench Verified, um benchmark proeminente no campo da inteligência artificial para avaliar o desempenho de modelos de linguagem grandes (LLMs) em tarefas de engenharia de software e codificação, não é mais considerado uma métrica confiável para medir o progresso de ponta. Os desenvolvedores do benchmark anunciaram que estão descontinuando sua avaliação devido a problemas crescentes de "contaminação" e medição imprecisa do avanço. A análise aprofundada realizada pelos criadores do SWE-bench revelou duas questões críticas que comprometem a validade do SWE-bench Verified. Em primeiro lugar, foram identificados "testes falhos" dentro do conjunto de dados. Esses testes podem não estar avaliando corretamente as capacidades de codificação dos modelos ou podem conter ambiguidades que levam a resultados enganosos. Testes inadequados podem inflar artificialmente as pontuações dos modelos ou, inversamente, subestimar suas verdadeiras habilidades. Em segundo lugar, e talvez o mais significativo, a análise apontou para a ocorrência de "vazamento de treinamento" (training leakage). Este fenômeno ocorre quando os dados de treinamento utilizados para desenvolver os LLMs contêm informações que são direta ou indiretamente derivadas do próprio benchmark. Isso significa que os modelos podem ter sido expostos às soluções ou a padrões específicos dos problemas do SWE-bench Verified durante sua fase de treinamento. Como resultado, os modelos podem estar "memorizando" as respostas ou aprendendo a reconhecer as características dos problemas em vez de desenvolverem uma compreensão genuína e a capacidade de resolver problemas de engenharia de software de forma independente. O vazamento de treinamento distorce fundamentalmente a avaliação do progresso. Se um modelo obtém uma pontuação alta em um benchmark devido ao vazamento de treinamento, ele não está demonstrando uma capacidade superior de raciocínio ou resolução de problemas, mas sim uma familiaridade prévia com o conjunto de dados de teste. Isso impede uma avaliação precisa das verdadeiras capacidades de codificação e engenharia de software dos LLMs e dificulta a identificação de avanços genuínos na área. Diante dessas descobertas, os desenvolvedores do SWE-bench recomendam enfaticamente a transição para uma nova versão, o "SWE-bench Pro". O SWE-bench Pro foi projetado para mitigar os problemas de contaminação e vazamento de treinamento, oferecendo um conjunto de dados mais robusto e um ambiente de avaliação mais rigoroso. O objetivo é fornecer uma plataforma mais justa e precisa para medir o progresso real dos modelos de IA em tarefas complexas de engenharia de software, garantindo que as pontuações reflitam as capacidades intrínsecas dos modelos e não artefatos do processo de treinamento ou falhas no design do benchmark.

Espaço para anúncio

Configure VITE_ADSENSE_CLIENT_ID

Leia Também

Nossas Primeiras Submissões de Prova

Nossas Primeiras Submissões de Prova

Neste artigo, apresentamos as primeiras tentativas de prova de nosso modelo de inteligência artificial para o desafio matemático "First Proof". Este desafio foi concebido para testar a capacidade de raciocínio de modelos de IA de nível de pesquisa em problemas complexos e de nível especialista. A iniciativa "First Proof" representa um marco significativo na avaliação das capacidades de IA em domínios que tradicionalmente exigem alta cognição humana, como a matemática formal e a lógica. O objetivo principal é demonstrar como os modelos de IA podem abordar e, idealmente, resolver problemas que exigem não apenas conhecimento, mas também a capacidade de construir argumentos lógicos e provas formais. As submissões detalham as estratégias e os resultados obtidos pelo nosso modelo, oferecendo insights sobre seus pontos fortes e limitações atuais no raciocínio matemático. Este esforço contribui para o avanço da pesquisa em inteligência artificial, especialmente no campo do raciocínio automatizado e da prova de teoremas, abrindo caminho para futuras melhorias na capacidade dos modelos de IA de lidar com desafios intelectuais de alto nível.

20 de fev. de 2026
3 visualizações
Modo de Bloqueio e Rótulos de Risco Elevado no ChatGPT

Modo de Bloqueio e Rótulos de Risco Elevado no ChatGPT

A OpenAI introduziu duas novas funcionalidades de segurança no ChatGPT, o "Modo de Bloqueio" (Lockdown Mode) e os "Rótulos de Risco Elevado" (Elevated Risk labels), visando fortalecer a defesa das organizações contra ataques de injeção de prompt e a exfiltração de dados impulsionada por IA. Essas ferramentas são projetadas para oferecer um ambiente mais seguro para empresas que utilizam a plataforma, mitigando vulnerabilidades que poderiam comprometer informações sensíveis ou a integridade dos sistemas. O Modo de Bloqueio atua como uma camada extra de proteção, limitando certas capacidades do modelo para reduzir a superfície de ataque, enquanto os Rótulos de Risco Elevado alertam os administradores sobre interações que podem indicar tentativas de exploração ou uso indevido. Juntas, essas inovações representam um passo significativo na contínua evolução da segurança em plataformas de IA, permitindo que as organizações gerenciem melhor os riscos associados ao uso de modelos de linguagem avançados. O objetivo é capacitar as empresas a aproveitar os benefícios do ChatGPT com maior confiança e controle sobre a segurança de seus dados e operações.

13 de fev. de 2026
3 visualizações
Além dos limites de taxa: escalando o acesso a Codex e Sora

Além dos limites de taxa: escalando o acesso a Codex e Sora

A OpenAI desenvolveu um sistema inovador para gerenciar o acesso contínuo às suas poderosas ferramentas de IA, como o Codex e o Sora. Este sistema vai além dos tradicionais limites de taxa (rate limits), combinando-os com um rastreamento detalhado de uso e um modelo de créditos flexível. O objetivo é permitir que desenvolvedores e usuários acessem essas capacidades de IA de forma consistente, mesmo diante de uma demanda crescente e da necessidade de alocar recursos computacionais de forma eficiente. Tradicionalmente, os limites de taxa são usados para evitar sobrecarga de sistemas e garantir fair usage, mas podem ser restritivos para aplicações que exigem alta disponibilidade e escalabilidade. A abordagem da OpenAI visa otimizar a experiência do usuário, oferecendo um acesso mais dinâmico e responsivo, onde o consumo é medido por créditos que podem ser ajustados com base na complexidade das operações e na capacidade do usuário. Isso permite uma gestão mais granular e adaptável dos recursos, essencial para modelos de IA que consomem muitos recursos computacionais. Ao integrar limites de taxa, monitoramento de uso e um sistema de créditos, a OpenAI busca criar um ecossistema robusto que suporte o crescimento e a inovação. Este modelo garante que os usuários possam escalar suas aplicações sem interrupções abruptas, ao mesmo tempo em que a empresa mantém o controle sobre a infraestrutura e a sustentabilidade do serviço. É uma solução sofisticada para o desafio de democratizar o acesso a tecnologias de IA de ponta, equilibrando performance, custo e disponibilidade.

13 de fev. de 2026
3 visualizações
OpenAI Anuncia Parceiros da Frontier Alliance

OpenAI Anuncia Parceiros da Frontier Alliance

A OpenAI revelou a iniciativa Frontier Alliance Partners, um programa estratégico desenhado para auxiliar grandes empresas na transição de projetos piloto de inteligência artificial para implementações em larga escala e em ambiente de produção. O foco principal é garantir que as soluções de IA, especialmente os 'agentes' autônomos, sejam desenvolvidas e implantadas de forma segura, eficiente e escalável, atendendo às rigorosas demandas do setor corporativo. Este programa visa preencher a lacuna entre a experimentação inicial com IA e a sua integração efetiva nas operações diárias das empresas. Ao colaborar com parceiros selecionados, a OpenAI busca fornecer a expertise e as ferramentas necessárias para que as organizações possam não apenas testar, mas realmente operacionalizar as capacidades de seus modelos de IA, transformando-os em ativos produtivos que impulsionam a inovação e a eficiência. A ênfase em 'deployments seguros e escaláveis' sublinha a importância da robustez e confiabilidade na adoção empresarial da IA avançada.

23 de fev. de 2026
4 visualizações

Compartilhar Artigo

O que você achou deste artigo?

Comentários (0)

Seus comentários serão moderados antes de aparecerem publicamente.

Nenhum comentário ainda. Seja o primeiro a comentar!