Evaluating the correctness and performance of AI-generated
benchmarks
Assistente de Código, Benchmarking de Linguagens de Programação, Corretude, Desempenho, Modelo de Linguagem em Grande Escala.
Large Language Models (LLMs) são amplamente utilizados na geração de código, seja auxiliando desenvolvedores na criação de novas funcionalidades, em testes de software, em otimizações, etc. Portanto, é de suma importância avaliar o desempenho de códigos gerados por LLMs, para entender o quão bem os assistentes de IA conseguem apoiar o desenvolvimento de software, bem como se eles podem superar códigos produzidos por humanos. Este trabalho apresenta um estudo empírico que analisa a corretude e o tempo de execução de códigos gerados por LLMs em comparação com soluções desenvolvidas por humanos, utilizando 10 benchmarks do conjunto de dados The Computer Language Benchmarks Game (CLBG), que avalia diversos aspectos das soluções propostas. Cinco assistentes de IA (ChatGPT, Claude, Copilot, DeepSeek e Gemini) foram utilizados nesta pesquisa, que também introduz o uso do modo Think Before Responding e utiliza como entrada combinações das técnicas zero-shot e role-play da Engenharia de Prompts, dando origem a quatro entradas. Os resultados evidenciam que os assistentes de IA nem sempre geram códigos corretos, às vezes levando a problemas de compilação e outras vezes a resultados incorretos (alucinações). Além disso, o tempo de execução pode, em alguns casos, ser próximo, mas raramente melhor do que as soluções desenvolvidas por humanos e fornecidas no CLBG.