为任务选择合适的 AI 模型

适用于 GitHub Copilot 的 AI 模型的比较

GitHub Copilot 支持具有不同功能的多个 AI 模型。你选择的模型会影响 Copilot Chat 中的响应以及代码补全的质量和相关性。某些模型提供较低延迟，而另一些模型则提供较少的虚构内容或针对特定任务的更出色性能。

本文可帮助你比较可用模型、了解每个模型的优势以及选择最适合你的任务的模型。有关使用真实任务的不同模型的指导，请参阅“使用不同任务比较 AI 模型”。

最佳模型取决于用例：

对于在成本和性能之间实现平衡，请尝试 GPT-4.1 或 Claude 3.7 Sonnet****。
对于针对基本任务的快速且低成本的支持，请尝试 o4-mini 或 Claude 3.5 Sonnet****。
对于深度推理或复杂的编码挑战，请尝试 o3、GPT-4.5 或 Claude 3.7 Sonnet****。
对于多模式输入和实时性能，请尝试 Gemini 2.0 Flash 或 GPT-4o****。

可以单击下方列表中的模型名称，跳转到其优势和用例的详细概述。

GPT-4o
GPT-4.1
GPT-4.5
o1
o3
o3-mini
o4-mini
Claude 3.5 Sonnet
Claude 3.7 Sonnet
Gemini 2.0 Flash
Gemini 2.5 Pro

Note

不同的模型具有不同的高级请求乘数，这可能会影响每月用量补贴的使用量。有关详细信息，请参阅关于高级请求。

GPT-4o

OpenAI GPT-4o 是支持文本和图像的多模式模型。此模型实时响应，非常适用于 Copilot Chat 中的轻量级开发任务和对话提示。

与以前的模型相比，GPT-4o 改进了多语言上下文中的性能，并在解释视觉内容时展示出更强大的功能。它以较低的延迟和成本提供 GPT-4 Turbo 级性能，使其成为许多常见开发人员任务的默认优质选项。

有关 GPT-4o 的详细信息，请参阅 OpenAI 的文档。

用例

GPT-4o 是常见开发任务（受益于速度、响应能力和常规用途推理）的强大默认选项。如果你正在处理需要广泛知识、快速迭代或基本代码理解的任务，GPT-4o 可能是最适合的模型。

优势

下表总结了 GPT-4o 的优势：

任务	说明	GPT-4o 为何适合
代码说明	理解代码块的用途或演练逻辑。	快速准确的说明。
代码注释和文档	生成或优化注释和文档。	编写简洁明了的说明。
bug 调查	获取有关错误的快速说明或建议。	提供快速的诊断见解。
代码片段生成	生成少量的可重用代码片段。	快速提供高质量结果。
多语言提示	使用非英语提示或标识符。	改进了多语言理解。
基于图像的问题	询问关于关系图或屏幕截图（其中支持图像输入）的问题。	支持视觉推理。

备用选项

下表总结了可能更适合使用替代模型的情况：

任务	说明	为什么其他模型可能更适合
多步骤推理或算法	设计复杂的逻辑或分解多步骤问题。	GPT-4.5 或 Claude 3.7 Sonnet 提供更好的分步思考。
复杂重构	重构大型代码库或更新多个相互依赖的文件。	GPT-4.5 更可靠地处理上下文和代码依赖项。
系统评审或体系结构	深入分析结构、模式或体系结构决策。	Claude 3.7 Sonnet 或 GPT-4.5 提供更深入的分析。

GPT-4.1

Note

Copilot Chat 中的 GPT-4.1 目前为公共预览版，可能会变动。

OpenAI 最新的模型 GPT-4.1 现已在 GitHub Copilot 和 GitHub Models 中提供，使 OpenAI 最新的模型融入你的编码工作流。此模型在各方面的表现都优于 GPT-4o，并且在编码、指令执行和长上下文理解方面有显著提升。它拥有更大的上下文窗口，并具备更新至 2024 年 6 月的知识库。

OpenAI 根据开发者的直接反馈对 GPT-4.1 进行了优化，使其在以下方面更适合真实开发场景：前端编码、更少不必要的修改、更可靠地遵循格式、保持响应结构与顺序、一致地使用工具等。此模型是常见开发任务（受益于速度、响应能力和常规用途推理）的强大默认选项。

用例

GPT-4.1 是 OpenAI 的 GPT-4o 模型的改进版本。此模型是常见开发任务（受益于速度、响应能力和常规用途推理）的强大默认选项。在处理需要广泛知识、快速迭代或基础代码理解的任务时，GPT-4.1 相比 GPT-4o 有显著改进。

优势

下表总结了 GPT-4.1 的优势：

任务	说明	GPT-4.1 为何适合
代码说明	理解代码块的用途或演练逻辑。	快速准确的说明。
代码注释和文档	生成或优化注释和文档。	编写简洁明了的说明。
bug 调查	获取有关错误的快速说明或建议。	提供快速的诊断见解。
代码片段生成	生成少量的可重用代码片段。	快速提供高质量结果。
多语言提示	使用非英语提示或标识符。	改进了多语言理解。

备用选项

任务	说明	为什么其他模型可能更适合
多步骤推理或算法	设计复杂的逻辑或分解多步骤问题。	GPT-4.5 或 Claude 3.7 Sonnet 提供更好的分步思考。
复杂重构	重构大型代码库或更新多个相互依赖的文件。	GPT-4.5 更可靠地处理上下文和代码依赖项。
系统评审或体系结构	深入分析结构、模式或体系结构决策。	Claude 3.7 Sonnet 或 GPT-4.5 提供更深入的分析。

GPT-4.5

OpenAI GPT-4.5 改进了推理、可靠性和上下文理解。它适用于涉及复杂逻辑、高质量代码生成或解读微妙意向的开发任务。

与 GPT-4o 相比，GPT-4.5 可为多步骤推理、长篇内容和复杂的问题解决生成更一致的结果。 GPT-4.5 的延迟和成本可能略高于 GPT-4o 和其他更小的模型。

有关 GPT-4.5 的详细信息，请参阅 OpenAI 的文档。

用例

GPT-4.5 是处理多步骤任务、需要更深入代码理解或需要具备良好语境处理能力的对话模型的理想选择。

优势

下表总结了 GPT-4.5 的优势：

任务	说明	GPT-4.5 为何适合
代码文档	草拟 README 文件或技术说明。	生成清晰、上下文丰富的书面内容，只需最少量的编辑工作。
复杂代码生成	编写完整的函数、类或多文件逻辑。	提供更好的结构、一致性和更少的逻辑错误。
bug 调查	跟踪错误或演练多步骤问题。	维护状态并在各步骤之间提供可靠推理。
决策提示	权衡库、模式或体系结构的优缺点。	提供均衡的上下文化推理。

备用选项

下表总结了可能更适合使用替代模型的情况：

任务	说明	为什么其他模型可能更适合
高速迭代	快速来回提示或代码调整。	GPT-4o 响应速度更快，与轻量级任务的质量相似。
成本敏感场景	性能与成本比例很重要的任务。	GPT-4o 或 o4-mini 更具成本效益。

o1

OpenAI o1 是一种较早的推理模型，支持复杂的多步骤任务和深度逻辑推理来查找最佳解决方案。

有关 o1 的详细信息，请参阅 OpenAI 的文档。

用例

o1 是需要深度逻辑推理的任务的理想选择。它擅长解析复杂逻辑，使 Copilot 能够将问题拆解为清晰、可执行的步骤。这使得 o1 尤其适合调试工作。它的内部推理能力能够超越初始提示的范畴，探索问题的更广泛上下文，并发现未被显式指出的边缘情况或根本原因。

优势

下表总结了 o1 的优势：

任务	说明	o1 为何适合
代码优化	分析和改进性能关键型代码或算法代码。	擅长深层推理和识别不明显的改进。
调试复杂系统	隔离并修复性能瓶颈或多文件问题。	提供分步分析和高推理准确性。
结构化代码生成	生成可重用函数、类型化输出或结构化响应。	以本机方式支持函数调用和结构化输出。
分析摘要	解释日志、基准结果或代码行为。	将原始数据转换为清晰、可操作的见解。
重构代码	提高现有系统的可维护性和模块性。	应用有意和上下文感知的建议。

备用选项

下表总结了可能更适合使用替代模型的情况：

任务	说明	为什么其他模型可能更适合
快速迭代	快速来回提示或代码调整。	GPT-4o 或 Gemini 2.0 Flash 对轻量级任务的响应速度更快。
成本敏感场景	性能与成本比例很重要的任务。	o4-mini 或 Gemini 2.0 Flash 对于基本用例更具成本效益。

o3

Note

Copilot Chat 中的 o3 目前为公共预览版，可能会变动。

OpenAI o3 是 o 系列中能力最强的推理模型。它非常适合深度编码工作流和复杂的多步骤任务。有关 o3 的详细信息，请参阅 OpenAI 的文档。

用例

o3 是需要深度逻辑推理的任务的理想选择。它擅长解析复杂逻辑，使 Copilot 能够将问题拆解为清晰、可执行的步骤。这使得 o3 特别适合用于调试。它的内部推理能力能够超越初始提示的范畴，探索问题的更广泛上下文，并发现未被显式指出的边缘情况或根本原因。

优势

下表总结了 o3 的优势：

任务	说明	o3 为何适合
代码优化	分析和改进性能关键型代码或算法代码。	擅长深层推理和识别不明显的改进。
调试复杂系统	隔离并修复性能瓶颈或多文件问题。	提供分步分析和高推理准确性。
结构化代码生成	生成可重用函数、类型化输出或结构化响应。	以本机方式支持函数调用和结构化输出。
分析摘要	解释日志、基准结果或代码行为。	将原始数据转换为清晰、可操作的见解。
重构代码	提高现有系统的可维护性和模块性。	应用有意和上下文感知的建议。

备用选项

下表总结了可能更适合使用替代模型的情况：

任务	说明	为什么其他模型可能更适合
快速迭代	快速来回提示或代码调整。	GPT-4o 或 Gemini 2.0 Flash 对轻量级任务的响应速度更快。
成本敏感场景	性能与成本比例很重要的任务。	o4-mini 或 Gemini 2.0 Flash 对于基本用例更具成本效益。

o3-mini

OpenAI o3-mini 是一种快速且具有成本效益的推理模型，旨在提供编码性能，同时保持较低的延迟和资源使用率。 o3-mini 在编码基准的表现上优于 o1，响应时间与 o1-mini 相当。 Copilot 配置为使用 OpenAI 的“中等”推理能力。

有关 o1 的详细信息，请参阅 OpenAI 的文档。

用例

o3-mini 是适合需要快速、可靠地回答简单或重复编码问题的开发人员的理想选择。它的速度和高效性使其非常适用于轻量级开发任务。

优势

下表总结了 o3-mini 的优势：

任务	说明	o3-mini 为何适合
实时代码建议	编写或扩展基本函数和实用工具。	使用准确、简洁的建议快速响应。
代码说明	理解代码块的用途或演练逻辑。	提供快速、准确的摘要，语言清晰。
学习新概念	询问有关编程概念或模式的问题。	提供有用且易于访问的解释，并提供快速反馈。
快速原型制作	快速尝试小想法或测试简单的代码逻辑。	针对迭代反馈的快速、低延迟响应。

备用选项

下表总结了可能更适合使用替代模型的情况：

任务	说明	为什么其他模型可能更适合
深层推理任务	多步骤分析或体系结构决策。	GPT-4.5 或 o1 提供更加结构化和透彻的推理。
创意任务或长篇任务	编写文档，跨大型代码库重构。	o3-mini 的表现力和结构性不如大型模型。
复杂代码生成	编写完整的函数、类或多文件逻辑。	大型模型可以更可靠地处理复杂性和结构。

o4-mini

Note

Copilot Chat 中的 o4-mini 目前为公共预览版，可能会变动。

OpenAI o4-mini 是 o 系列中最高效的模型。它是颇具成本效益的推理模型，旨在提供编码性能，同时保持较低的延迟和资源使用率。

有关 o4 的详细信息，请参阅 OpenAI 的文档。

用例

o4-mini 是需要快速、可靠地回答简单或重复编码问题的开发人员的理想选择。它的速度和高效性使其非常适用于轻量级开发任务。

优势

下表总结了 o4-mini 的优势：

任务	说明	o4-mini 为何适合
实时代码建议	编写或扩展基本函数和实用工具。	使用准确、简洁的建议快速响应。
代码说明	理解代码块的用途或演练逻辑。	提供快速、准确的摘要，语言清晰。
学习新概念	询问有关编程概念或模式的问题。	提供有用且易于访问的解释，并提供快速反馈。
快速原型制作	快速尝试小想法或测试简单的代码逻辑。	针对迭代反馈的快速、低延迟响应。

备用选项

下表总结了可能更适合使用替代模型的情况：

任务	说明	为什么其他模型可能更适合
深层推理任务	多步骤分析或体系结构决策。	GPT-4.5 或 o3 提供更有条理、更全面的推理。
创意任务或长篇任务	编写文档，跨大型代码库重构。	o4-mini 的表现力和条理性不如大型模型。
复杂代码生成	编写完整的函数、类或多文件逻辑。	大型模型可以更可靠地处理复杂性和结构。

Claude 3.5 Sonnet

Claude 3.5 Sonnet 是专为日常开发人员任务设计的快速且经济高效的模型。虽然它没有 Claude 3.7 Sonnet 的深层推理功能，但仍擅长执行需要快速响应、清晰摘要和基本逻辑的编码任务。

有关 Claude 3.5 Sonnet 的详细信息，请参阅 Anthropic 的文档。有关在 Copilot 中使用 Claude 的更多信息，请参阅“在 Copilot Chat 中使用 Claude Sonnet”。

用例

Claude 3.5 Sonnet 是获得日常编码支持的不错的选择，包括编写文档、回答特定于语言的问题或生成样板代码。它提供有用的直接答案，不会过度复杂化任务。如果你的工作存在成本约束，则建议使用 Claude 3.5 Sonnet，因为它为与 Claude 3.7 Sonnet 相同的许多任务提供可靠的性能，但资源使用显著降低。

优势

下表总结了 Claude 3.5 Sonnet 的优势：

任务	说明	Claude 3.5 Sonnet 为何适合
代码说明	理解代码块的用途或演练逻辑。	快速准确的说明。
代码注释和文档	生成或优化注释和文档。	编写简洁明了的说明。
快速语言问题	询问语法、习语或特定于功能的问题。	提供快速准确的说明。
代码片段生成	生成少量的可重用代码片段。	快速提供高质量结果。

备用选项

下表总结了可能更适合使用替代模型的情况：

任务	说明	为什么其他模型可能更适合
多步骤推理或算法	设计复杂的逻辑或分解多步骤问题。	GPT-4.5 或 Claude 3.7 Sonnet 提供更好的分步思考。
复杂重构	重构大型代码库或更新多个相互依赖的文件。	GPT-4.5 或 Claude 3.7 Sonnet 更可靠地处理上下文和代码依赖项。
系统评审或体系结构	深入分析结构、模式或体系结构决策。	Claude 3.7 Sonnet 或 GPT-4.5 提供更深入的分析。

Claude 3.7 Sonnet

Claude 3.7 Sonnet 是 Anthropic 迄今为止最高级的模型。 Claude 3.7 Sonnet 是一种功能强大的模型，擅长执行需要跨大型或复杂代码库进行结构化推理的开发任务。它用于推理的混合方法可在需要时快速响应，同时仍支持对更深入的任务执行较慢的分步分析。

有关 Claude 3.7 Sonnet 的详细信息，请参阅 Anthropic 的文档。有关在 Copilot 中使用 Claude 的更多信息，请参阅“在 Copilot Chat 中使用 Claude Sonnet”。

用例

Claude 3.7 Sonnet 在软件开发生命周期的各个阶段（从初始设计、错误修复、维护到性能优化）均表现出色。它特别适合用于多文件重构或架构规划等需要理解跨组件上下文的场景。

优势

下表总结了 Claude 3.7 Sonnet 的优势：

任务	说明	Claude 3.7 Sonnet 为何适合
多文件重构	改进大型代码库的结构和可维护性。	处理多步骤逻辑并保留跨文件上下文。
体系结构规划	支持混合任务复杂性，从小型查询到战略工作。	细化的“思考”控件适应每个任务的范围。
功能开发	跨前端、后端和 API 层生成和实现功能。	支持涉及结构化推理和可靠补全的任务。
算法设计	设计、测试和优化复杂算法。	根据需要通过深入分析来平衡快速原型制作。
分析见解	将高级摘要与深入探索代码行为相结合。	混合推理使模型能够根据用户需求进行转变。

备用选项

下表总结了可能更适合使用替代模型的情况：

任务	说明	为什么其他模型可能更适合
快速迭代	快速来回提示或代码调整。	GPT-4o 对轻量级任务的响应速度更快。
成本敏感场景	性能与成本比例很重要的任务。	o4-mini 或 Gemini 2.0 Flash 对于基本用例更具成本效益。 Claude 3.5 Sonnet 价格更低、更简单，而且对于相似任务仍然足够高级。
轻量级原型制作	使用最少上下文的快速来回代码迭代。	Claude 3.7 Sonnet 可能会过度工程化处理或应用不必要的复杂性。

Gemini 2.0 Flash

Gemini 2.0 Flash 是 Google 针对实时交互式应用程序（受益于视觉输入和代理推理）优化的高速多模式模型。在 Copilot Chat 中，Gemini 2.0 Flash 可实现快速响应和跨模式理解。

有关 Gemini 2.0 Flash 的详细信息，请参阅 Google 的文档。有关在 Copilot 中使用 Gemini 的更多信息，请参阅“在 Copilot Chat 中使用 Gemini”。

用例

Gemini 2.0 Flash 支持图像输入，开发人员可以在执行 UI 检查、图表分析或布局调试等任务时引入视觉对象上下文。这使得 Gemini 2.0 Flash 特别适用于需要图像增强问题解决的场景，例如请求 Copilot 分析 UI 截图中的辅助功能问题，或帮助理解布局中的视觉对象 Bug。

优势

下表总结了 Gemini 2.0 Flash 的优势：

任务	说明	Gemini 2.0 Flash 为何适合
代码片段生成	生成少量的可重用代码片段。	快速提供高质量结果。
设计反馈循环	从草图、关系图或视觉对象草稿中获取建议	支持视觉推理。
基于图像的分析	询问关于关系图或屏幕截图（其中支持图像输入）的问题。	支持视觉推理。
前端原型制作	生成和测试涉及视觉元素的 UI 或工作流	支持多模式推理和轻量级上下文。
bug 调查	获取有关错误的快速说明或建议。	提供快速的诊断见解。

备用选项

下表总结了可能更适合使用替代模型的情况：

任务	说明	为什么其他模型可能更适合
多步骤推理或算法	设计复杂的逻辑或分解多步骤问题。	GPT-4.5 或 Claude 3.7 Sonnet 提供更好的分步思考。
复杂重构	重构大型代码库或更新多个相互依赖的文件。	GPT-4.5 更可靠地处理上下文和代码依赖项。

任务	说明	Gemini 2.5 Pro 为何适合
复杂代码生成	编写完整的函数、类或多文件逻辑。	提供更好的结构、一致性和更少的逻辑错误。
调试复杂系统	隔离并修复性能瓶颈或多文件问题。	提供分步分析和高推理准确性。
科学研究	跨学科分析数据并生成见解。	支持复杂分析与深度研究能力。
长上下文处理	可分析大量文档、数据集或代码库。	可有效处理长上下文输入。

备用选项

下表总结了可能更适合使用替代模型的情况：

任务	说明	为什么其他模型可能更适合
成本敏感场景	性能与成本比例很重要的任务。	o4-mini 或 Gemini 2.0 Flash 对于基本用例更具成本效益。

为任务选择合适的 AI 模型

本文内容