O grupo de pesquisa METR (Model Evaluation & Threat Research) publicou os resultados de um experimento para avaliar a eficácia do uso de ferramentas de IA para escrever código. Contrariando as expectativas, o estudo mostrou que assistentes de IA não aceleram, mas retardam a resolução de tarefas, apesar de os participantes do experimento acreditarem subjetivamente que a IA acelerou seu trabalho.
De fato, ao usar um assistente de IA, o tempo médio gasto em uma tarefa foi 19% maior, enquanto os participantes acreditavam que a IA os ajudou a concluir a tarefa 20% mais rápido e, antes de iniciar a tarefa, acreditavam que a IA os ajudaria a acelerar a tarefa em 24%. Os resultados também diferem significativamente das previsões de especialistas nas áreas de economia e aprendizado de máquina, que previram economias de tempo de 39% e 38%, respectivamente, com o uso de IA.

Durante o experimento, 16 desenvolvedores de código aberto com experiência média em ferramentas de IA foram solicitados a resolver 246 tarefas relacionadas à correção de bugs e à adição de novos recursos. As tarefas foram geradas com base em problemas reais em repositórios do GitHub de projetos com os quais os desenvolvedores selecionados tinham pelo menos 5 anos de experiência. Algumas tarefas foram oferecidas aleatoriamente para serem resolvidas manualmente, e outras foram oferecidas para serem resolvidas usando qualquer assistente de IA à escolha do desenvolvedor (a maioria preferiu o editor de código Cursor com o modelo Claude 3.5/3.7 Sonnet).
O experimento, que ocorreu de fevereiro a junho de 2025, envolveu projetos de código aberto como mito, stdlib, ghc, cabal, flair, jsdom, hypothesis, trieve, scikit-learn, gpt-neox e transformers. Em média, os projetos envolvidos tiveram 23 estrelas no GitHub, 1.1 milhão de linhas de código, 20 commits e 710 colaboradores.

As seguintes possíveis razões para a lentidão na resolução de problemas ao usar IA são mencionadas:
- Baixa qualidade das recomendações de IA - os desenvolvedores aceitaram menos de 44% das sugestões geradas pela IA e gastaram muito tempo limpando e verificando-as.
- Otimismo excessivo sobre a utilidade da IA e expectativas infladas sobre as capacidades das ferramentas de IA.
- Os participantes tinham vasta experiência trabalhando com os repositórios para os quais as tarefas estavam sendo resolvidas. Os desenvolvedores eram muito versados nos projetos e a assistência da IA não foi útil nessa situação.
- O experimento usou repositórios muito grandes e complexos, com os quais a IA não funciona bem.
- Contexto implícito do repositório - A IA não entendia o contexto em que estava trabalhando.
Resumindo: os desenvolvedores gastam menos tempo escrevendo código, buscando informações e lendo documentação ao usar ferramentas de IA, mas essa economia é compensada pelo aumento do tempo gasto na geração de consultas de IA, na análise de prompts, na espera por resultados, na revisão de sugestões e na inatividade. Em vez de gerar código, o tempo é gasto interagindo com a IA, estudando os resultados e verificando o código proposto. É possível que, se desenvolvedores menos experientes, menos responsáveis pela revisão de código ou trabalhando com uma base de código desconhecida, tivessem participado do experimento, diferentes métricas de eficiência de desenvolvimento teriam sido obtidas.
Além disso, a Qodo realizou uma pesquisa com 609 desenvolvedores que utilizam IA em sua programação. 78% relataram um aumento na produtividade após o uso da IA, 60% relataram um aumento na qualidade geral do código graças à IA e 20% relataram uma redução na qualidade do código após o uso da IA. Ao mesmo tempo, 76% observaram que não utilizam código de IA sem revisão manual prévia. O artigo também observa que os desenvolvedores individuais se sentem significativamente melhor ao usar IA, pois conseguem fornecer mais código, mas ao custo de uma carga de trabalho maior para os responsáveis por aceitar o código em projetos, revisar alterações e verificar a qualidade.
Fonte: opennet.ru
