2025 重学大模型:LLM预训练、后训练以及蒸馏
<以DeepSeek 的R1 和V3 模型作为对象进行内容编写。
DeepSeek R1 是基座的通用模型,参数规模为 671B。该模型使用各领域大量的数据集进行模训练,使得该模型具备 泛化能力和 模式。
预训练(Pre-train)阶段主要的任务有:①数据收集;②数据清洗:对收集的数据进行预处理,包括处理噪声、重复和不相关的内容,以确保数据质量)。 后训练(Post-train)是指在预训练阶段之后,针对特定任务或领域对模型进行进一步的训练和优化,以提升其在特定应用场景下的性能。