Advanced Search
Search Results
23 total results found
预训练LLM的宏观流程
好的,预训练一个大语言模型 (LLM) 是一个复杂且资源密集型的过程。下面是从头到尾的宏观流程,不涉及具体代码细节,但会涵盖关键步骤和考量: 阶段一:规划与准备 (The Blueprint) 确定目标与需求: 模型规模: 决定模型的参数量级 (例如 7B, 13B, 70B 等)。这直接影响资源需求、训练时间和潜在能力。 模型架构: 选择基础架构(通常是 Transformer 的变体)。是 Decoder-only (如 GPT 系列), Encoder-Decoder (如 T5, BART), 还是其...
prompt工程
Prompt 工程(Prompt Engineering)可以被视为一门设计和优化输入提示(Prompt)的艺术和科学,以指导大型语言模型(LLM)高效、准确地完成特定任务。 下面我为你梳理一下学习 Prompt 工程需要掌握的方面: 阶段一:Prompt 工程基础与核心概念 理解 Prompt 的构成: 指令 (Instruction): 明确告诉模型要做什么。例如:“将下面的英文翻译成中文:” 上下文 (Context): 提供相关的背景信息,帮助模型理解任务。例如:在翻译任务中提供待翻译的文本。 输入数...
微调
LLM 微调 (Fine-tuning): 概述 在预训练阶段,大语言模型(LLM)通过在海量通用文本数据上进行训练,学习到了广泛的语言知识、语法结构、世界常识以及一定的推理能力。然而,这些预训练模型是“通才”,它们并不针对任何特定的下游任务或特定的行为模式进行优化。 微调 (Fine-tuning) 的核心目标是:在预训练模型的基础上,使用特定任务或领域的数据集进行进一步训练,从而使模型能够更好地适应这些特定需求,表现出期望的行为或在特定任务上达到更高的性能。 可以把预训练模型想象成一个已经完成了大学通识教育的学...