GitHub宣布4月24日起默认使用Copilot用户数据训练AI模型

个人专栏

2026-03-26热度: 12271

GitHub宣布自2026年4月起默认使用Copilot免费及付费用户的交互数据（含代码片段、上下文、聊天记录等）训练AI模型，采用预设加入机制引发开发者对私有仓库数据确权和隐私边界的争议，反映AI厂商在公域数据枯竭背景下转向私有交互数据以提升模型性能的趋势。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

GitHub近日宣布将从2026年4月24日起更新其代码库政策，计划利用用户交互数据训练其AI模型。此次数据采集范围涵盖Copilot Free、Pro及Pro+用户，具体包含模型输入输出、代码片段、上下文信息、仓库结构及聊天交互记录。

GitHub首席产品官Mario Rodriguez表示，引入交互数据旨在提升模型的代码建议准确率与安全性，并称微软内部数据的预先测试已显著提高了建议接受率。值得注意的是，该政策采取“预设加入”机制，受影响用户需手动进入隐私设置关闭相关选项方可退出，这引发了开发者社区关于私有仓库定义及数据确权的广泛讨论。

Github

目前，受合同条款约束的Copilot Business、Enterprise用户以及教育版用户暂不受此变更影响。GitHub在说明中强调，此举符合Anthropic、JetBrains及微软等大厂通行的行业惯例。然而，将私有仓库代码纳入训练集实质上挑战了传统“私有”概念的边界，即便GitHub声称其目的是优化开发工作流。

从行业视角看，随着高质量公域代码数据趋于枯竭，头部AI厂商正加速转向挖掘私有交互数据等“深层数据”以寻求模型性能红利。这一政策转变不仅标志着GitHub从开源托管平台向闭环AI训练生态的进一步倾斜，也预示着AI开发者工具领域正进入数据合规与模型演进博弈的新阶段。

本内容旨在传递行业动态，不构成投资建议或承诺。