01月
马斯克认为,合成数据将是补充真实数据的途径,AI 将通过生成和自我评估数据实现自我学习。这一趋势已被包括微软、Meta、OpenAI 和 Anthropic 等科技巨头采用,如微软 Phi-4 模型和谷歌 Gemma 模型都结合了真实数据和合成数据进行训练。Gartner 预测,2024 年 AI 和分析项目中约 60% 的数据将为合成生成。
合成数据的优势包括成本节约,例如 AI 初创公司 Writer 仅花费约 70 万美元开发其几乎完全基于合成数据的 Palmyra X 004 模型,相比之下,类似规模的 OpenAI 模型开发成本约为 460 万美元。然而,合成数据也存在风险,包括模型创造力下降、输出偏差加剧,以及潜在的模型崩溃,尤其当训练数据本身存在偏差时,生成结果也可能受到影响。