论文主要内容与创新点总结
一、主要内容
- 研究背景与目标
- 大语言模型(LLMs)如Copilot、Cursor等已广泛应用于编程,但缺乏对其实际影响代码风格的系统性研究。
- 研究聚焦LLMs对代码命名约定、复杂性、可维护性及相似性的影响,分析GitHub上1.9万+仓库的代码数据(2020-2025年)。
- 核心发现
- 命名模式:LLMs偏好更长、更具描述性的变量名(如snake_case),Python中snake_case变量名占比从2023年Q1的47%升至2025年Q1的51%,且GitHub中该趋势与LLM生成代码风格一致。
- 代码复杂性与可维护性:LLM生成代码在圈复杂度(cyclomatic complexity)等指标上更简洁,但在命名规范等风格层面与人类代码差异较小;GitHub代码中未观察到显著趋势,表明LLMs与人类开发者在复杂性维度差异不大。