🥇Сравнение числа ошибок в коде, написанном людьми и AI

Исследователи из компании CodeRabbit проанализировали 470 pull-запросов (350 — созданные AI, 150 — написанные вручную) в открытых проектах на GitHub и пришли к выводу, что в изменениях, сгенерированных AI-ассистентами, присутствует в 1.7 раза больше значительных дефектов и в 1.4 раза больше критических проблем, чем во вручную написанном коде. В среднем в сгенерированных через AI pull-запросах присутствовало 10.83 проблем, в то время как в созданных вручную изменениях данный показатель составил 6.45.

При рассмотрении отдельных категорий проблем, в созданном AI коде было в 1.75 раз больше логических ошибок, в 1.64 раза больше проблем с качеством и сопровождаемостью кода, в 1.56 больше проблем с безопасностью и в 1.41 раз больше проблем с производительностью. Дополнительно отмечается, что в генерируемом через AI коде в 1.88 раз выше вероятность некорректной обработки паролей, в 1.91 раз — небезопасного предоставления доступа к объектам, 2.74 раза — межсайтового скриптинга (XSS) и в 1.82 раза — небезопасной десериализации данных. При этом в написанном людьми коде в 1.76 раз больше орфографических ошибок и в 1.32 раза больше ошибок, связанных с тестированием.

Сравнение числа ошибок в коде, написанном людьми и AI

Некоторые другие исследования:

В исследовании, проведённом в ноябре компанией Cortex, отмечается что по сравнению с прошлым годом благодаря применению AI число создаваемых одним разработчиком pull-запросов в среднем увеличилось на 20%, но число проблем в pull-запросах выросло на 23.5%, а уровень отказов при внесении изменений увеличился примерно на 30%.
В августовском исследовании Неаполитанского университета сделан вывод, что генерируемый через AI код в целом проще и однообразнее, но содержит больше неиспользуемых конструкций и встроенных отладочных вставок, в то время как вручную написанный код структурно сложнее и содержит больше проблем с сопровождаемостью.
Июльский эксперимент группы METR показал, что AI-помощники не ускоряют, а замедляют решение поставленных задач, при том, что субъективно участники считали, что AI ускорил их работу.
В январском исследовании университета Монаша указано, что GPT-4 генерирует более сложный код, требующий доработки для дальнейшего сопровождения, но лучше справляющийся с прохождением тестов.

Источник: opennet.ru