Advanced Search

Search Terms

Content Type

Page Chapter
Book Shelf

Exact Matches

Tag Searches

Date Options

Updated after

Updated before

Created after

Created before

Search Results

23 total results found

预训练LLM的宏观流程

LLM学习初识LLM

好的，预训练一个大语言模型 (LLM) 是一个复杂且资源密集型的过程。下面是从头到尾的宏观流程，不涉及具体代码细节，但会涵盖关键步骤和考量：阶段一：规划与准备 (The Blueprint) 确定目标与需求：模型规模：决定模型的参数量级 (例如 7B, 13B, 70B 等)。这直接影响资源需求、训练时间和潜在能力。模型架构：选择基础架构（通常是 Transformer 的变体）。是 Decoder-only (如 GPT 系列), Encoder-Decoder (如 T5, BART), 还是其...

prompt工程

LLM学习初识LLM

Prompt 工程（Prompt Engineering）可以被视为一门设计和优化输入提示（Prompt）的艺术和科学，以指导大型语言模型（LLM）高效、准确地完成特定任务。下面我为你梳理一下学习 Prompt 工程需要掌握的方面：阶段一：Prompt 工程基础与核心概念理解 Prompt 的构成: 指令 (Instruction): 明确告诉模型要做什么。例如：“将下面的英文翻译成中文：” 上下文 (Context): 提供相关的背景信息，帮助模型理解任务。例如：在翻译任务中提供待翻译的文本。输入数...

微调

LLM学习初识LLM

LLM 微调 (Fine-tuning): 概述在预训练阶段，大语言模型（LLM）通过在海量通用文本数据上进行训练，学习到了广泛的语言知识、语法结构、世界常识以及一定的推理能力。然而，这些预训练模型是“通才”，它们并不针对任何特定的下游任务或特定的行为模式进行优化。微调 (Fine-tuning) 的核心目标是：在预训练模型的基础上，使用特定任务或领域的数据集进行进一步训练，从而使模型能够更好地适应这些特定需求，表现出期望的行为或在特定任务上达到更高的性能。可以把预训练模型想象成一个已经完成了大学通识教育的学...