2026.06.21
机器学习项目的真实面貌:训练只占2%,数据与评估才是王道
目录

训练模型固然重要,但它只是整个 pipeline 的最后一环,而且占比极小。真正决定项目成败的,是前面的评估和数据工作。
最近,Tesla AI 工程师 Yun-Ta Tsai 在 X(Twitter)上发了一条帖子,引发了 AI 社区的广泛讨论。
他指出,许多人以为机器学习(ML)项目 99% 的工作都在训练模型,但现实远非如此。
根据他的经验,一个典型的 ML 项目时间分配大致如下:
50% 评估(Evaluation)
40% 数据清洗(Data Cleaning)
8% 集成(Integration)
仅 2% 训练(Training)
训练模型固然重要,但它只是整个 pipeline 的最后一环,而且占比极小。真正决定项目成败的,是前面的评估和数据工作。
噪声地板:模型无法逾越的界限
Yun-Ta Tsai 强调,评估和数据清洗共同决定了学习的“噪声地板”(noise floor)。
这是信息论层面的硬约束——模型能达到的最佳性能受限于你提供数据的 Shannon 编码最优界限。
无论你用多强大的架构、多大规模的参数,都无法突破这个由数据质量设定的天花板。模型无法“魔法般”地消除噪声,它只能在你给定的数据基础上学习。
这就好比给一个 IQ 180 的天才一本目录混乱、概念模糊的教科书,他也学不好线性代数。问题不在于学生的智力,而在于“教材”本身没有清晰定义知识结构。
本体论(Ontology):每天都要思考的核心
作者提到自己每天都在思考 ontology(本体论)。即使是旧标签,也需要持续审查和迭代。
在监督微调(SFT)中,本体论通过密集标签(dense labels)来表达;
在强化学习(RL)中,则通过奖励函数来体现。
本体论本质上是教模型“上下文”和“客观目标”。错误的或模糊的本体论会迫使模型学习错误的推理模式。
现实世界中,数据分布会漂移(distribution drift),边缘案例会不断暴露旧标签的问题,因此标签工作绝非“一劳永逸”。
Yun-Ta Tsai 提醒:在给模型数据时,必须以“空白的心态”审视——抛开预设偏见,像模型一样从零开始理解每一条标签的含义。
在 Tesla 这样的真实世界部署环境中(自动驾驶、机器人等),模型需要处理海量复杂场景。
干净的数据和严谨的评估能让模型在相对较小的规模下就取得良好效果,而不需要盲目堆参数。如果评估和数据足够优秀,你甚至不需要特别大的模型。那些额外的参数,往往只是在努力压缩噪声而已。
“垃圾进,垃圾出”(Garbage In, Garbage Out)
Yun-Ta Tsai 的这番分享,戳破了外界对 AI 开发的浪漫想象。
训练一模型远没有看起来那么光鲜,“刷数据、审标签、定评估”,是任何顶级 AI 团队(如 Tesla AI)的基本功。
把精力重点放在数据和评估上,而不是追逐最新最强的模型。
持续迭代 ontology 和标签,视其为动态过程,而非静态任务。
建立严谨的反馈循环:真实世界的评估(尤其是部署后的)是提升系统性能的最有力工具。
不要高估模型的“魔法”——它本质上是优秀教材(高质量数据)的学生。
—— 基于 @yunta_tsai 帖子及相关讨论整理。
原文参见:
xtxt.top
原文链接:https://mp.weixin.qq.com/s/orPjJ0KaH0N7O6nfvlc4_g
来源:XT
相关文章
- AI越强,对于人对方向和价值的敏锐度要求越高。提示词工程作为“怎么把话说给模型听”的技巧,重要性在下降;但它背后真正有价值的东西没有下降,反而更重要了:判断力、问题定义能力、审美品味、以…
- Claude Code 真正厉害的地方,不是“会写代码”,而是它外面那层工程壳未来我们判断一个 Agent 产品强不强,不能只问它用了哪个模型,也不能只看 demo 里能不能跑通任务。 更应该问:当它连续工作十轮、一百…
- 这里有10组动词,让你精准驾驭与AI的对话。除了使用“为什么、是什么、如何做”这些常见的提问方式以外,你可以更主动地采用“动词”——这正是驾驭AI的关键。 这里是我与AI对话的“动词工…
- “死磕、加速、杠杆、乐趣、与能力退化 ”—— Andrej Kaparthy 这几周的AI Coding的笔记过去几周大量使用 Claude 编码的一些随机笔记 编码工作流 得益于 LLM 编码能力的最近大幅提升,和很多人一样,我在11月份还是大约8…