初识LLM
Transformer架构 (LLM的基石)
整体概览: 这张图展示了一个典型的编码器-解码器 (Encoder-Decoder) 架构的 Transformer。 左半部分 (蓝色框,标号2) 是 编码器 (Encoder),负责理解...
主流预训练模型
好的,我们来梳理一下这些主流预训练模型的特点、适用场景和预训练方式。这是一个庞大且快速发展的领域,我会尽量概括核心信息。 核心概念理解: 预训练 (Pre-training): 在大规模无标签...
一个简单的预训练代码(了解流程即可)
好的,这里提供一个使用 PyTorch 构建的极简 Decoder-only Transformer(类似 GPT-like 结构)进行预训练(Causal Language Modeling ...
预训练LLM的宏观流程
好的,预训练一个大语言模型 (LLM) 是一个复杂且资源密集型的过程。下面是从头到尾的宏观流程,不涉及具体代码细节,但会涵盖关键步骤和考量: 阶段一:规划与准备 (The Blueprint) ...
prompt工程
Prompt 工程(Prompt Engineering)可以被视为一门设计和优化输入提示(Prompt)的艺术和科学,以指导大型语言模型(LLM)高效、准确地完成特定任务。 下面我为你梳理一下...
微调
LLM 微调 (Fine-tuning): 概述 在预训练阶段,大语言模型(LLM)通过在海量通用文本数据上进行训练,学习到了广泛的语言知识、语法结构、世界常识以及一定的推理能力。然而,这些预训...