Остання редакція: 22-04-2026
Тези доповіді
Зростання складності програмних систем та збільшення обсягів автоматизовано згенерованого коду зумовлює необхідність розвитку методів його якісного аналізу. У сучасних умовах задача оцінювання програмного коду набуває особливої актуальності, оскільки включає не лише перевірку функціональної коректності, але й аналіз алгоритмічної ефективності, обробки крайових випадків та відповідності загальноприйнятим інженерним практикам.
Існуючі інструменти автоматизованого аналізу коду, як правило, орієнтовані на часткові аспекти цієї задачі, зокрема статичну перевірку синтаксичних помилок або виконання тестів. Водночас комплексне оцінювання якості програмного коду з урахуванням багатьох критеріїв залишається складною та недостатньо формалізованою задачею.
Технології великих мовних моделей (LLM) відкривають нові можливості для вирішення подібних задач, однак їх ефективність як автоматизованих систем оцінювання програмного коду потребує додаткового емпіричного дослідження, зокрема у контексті точності, узгодженості з еталонними оцінками та обчислювальної ефективності.
Метою роботи є проведення порівняльного аналізу 17 сучасних великих мовних моделей від 6 провайдерів як автоматизованих рецензентів програмного коду, а також визначення їх ефективності та придатності для використання в задачах автоматизованого оцінювання якості програмних рішень.
Для досягнення поставленої мети розроблено бенчмаркінговий модуль на базі Java 17 із використанням фреймворку Spring Boot 3.2.6. Корпус тестових даних включає 34 алгоритмічні задачі, реалізовані трьома мовами програмування – Java, Python, JavaScript, а також 136 варіантів розв’язків, класифікованих за категоріями OPTIMAL, CORRECT, EDGE_CASE_FAIL та WRONG_LOGIC. Еталонна оцінка обчислюється за формулою:
де штрафи накладаються за три типи дефектів: неефективність алгоритму, некоректну обробку граничних випадків та фундаментальні логічні помилки. Усі моделі отримують уніфікований системний промпт і повертають результат у форматі JSON.
Для порівняльного аналізу застосовано чотири метрики: середнє абсолютне відхилення (MAE), коефіцієнт кореляції Пірсона, а також точність у межах ±5 балів (Acc±5) та ±10 балів (Acc±10). Результати експериментального дослідження наведено на рис. 1.
Усі досліджувані моделі продемонстрували високий рівень узгодженості з еталонними оцінками (r = 0,91–0,98). Найвищу точність показала модель Grok-4-1-fast-reasoning (MAE = 6,53; r = 0,976). Важливим результатом є підтвердження ефективності моделей із нижчою вартістю: модель GPT-4o-mini (MAE = 7,95; Acc±10 = 79,4%) демонструє незначне зниження якості порівняно з GPT-4o за суттєво нижчої вартості використання. Модель Gemini-3.1-flash-lite-preview забезпечує найвищу точність за метрикою Acc±10 (81,6%) та мінімальний час відповіді (1 582 мс).
Водночас моделі з розширеними механізмами міркування (зокрема DeepSeek-reasoner та Grok-3-mini) продемонстрували нижчу точність у поєднанні зі значно більшими затримками відповіді (15–26 с), що обмежує їх застосування в інтерактивних системах. Модель Claude-haiku-4-5 показала найнижчі результати (MAE = 12,18), що зумовлено систематичним заниженням оцінок (Underestimation Rate = 40%).
У ході дослідження встановлено, що використання розширених стратегій інференсу (зокрема chain-of-thought reasoning) не призводить до покращення якості оцінювання програмного коду. Це пояснюється структурованим характером задачі рецензування, який не потребує побудови складних ланцюгів міркувань.
Для практичного застосування доцільним є використання моделі GPT-4o-mini як рішення з оптимальним співвідношенням точності та вартості, а також Gemini-3.1-flash-lite-preview як моделі з мінімальною затримкою відповіді. Отримані результати можуть бути використані як науково-методична основа для розроблення інтелектуальних систем автоматизованого оцінювання та аналізу якості програмного коду.