2019 (18)
2024 (691)
数据训练是构建高效准确的AI模型的核心过程,也是最耗时间,耗算力过程。
当初得瑟问咋做到的时候,我去读了DS的论文,DS论文也明确说是基于开源的meta模型Llama。
当时没想去想在meta模型基础上数据训练的数据是那里来的,现在答案或许已呼之欲出。
DeepSeek依靠 “蒸馏”OpenAI 模型的数据来帮助开发自家技术,这个当然低成本啊。
DS低成本和快速突破根植于高质量数据投喂,60万条核心推理数据/20万条监督微调数据/300-500万的RLHF人工偏好数据集,如此规模的优质合成数据,究竟从何而来? 答案或许已呼之欲出。
DS=?meta开源模型 + OpenAI高质量数据 + 自己的工艺。
这样,的确是快速而低成本。
?