初识LLM

整体概览：这张图展示了一个典型的编码器-解码器 (Encoder-Decoder) 架构的 Transformer。左半部分 (蓝色框，标号2) 是编码器 (Encoder)，负责理解...

好的，我们来梳理一下这些主流预训练模型的特点、适用场景和预训练方式。这是一个庞大且快速发展的领域，我会尽量概括核心信息。核心概念理解：预训练 (Pre-training): 在大规模无标签...

好的，这里提供一个使用 PyTorch 构建的极简 Decoder-only Transformer（类似 GPT-like 结构）进行预训练（Causal Language Modeling ...

好的，预训练一个大语言模型 (LLM) 是一个复杂且资源密集型的过程。下面是从头到尾的宏观流程，不涉及具体代码细节，但会涵盖关键步骤和考量：阶段一：规划与准备 (The Blueprint) ...

Prompt 工程（Prompt Engineering）可以被视为一门设计和优化输入提示（Prompt）的艺术和科学，以指导大型语言模型（LLM）高效、准确地完成特定任务。下面我为你梳理一下...

LLM 微调 (Fine-tuning): 概述在预训练阶段，大语言模型（LLM）通过在海量通用文本数据上进行训练，学习到了广泛的语言知识、语法结构、世界常识以及一定的推理能力。然而，这些预训...