S1mple

S1mple updated page 微调
2 months ago

S1mple created page 微调
2 months ago

S1mple created page prompt工程
2 months ago

S1mple created page 预训练LLM的宏观流程
2 months ago

S1mple created page 一个简单的预训练代码（了解流程即可）
2 months ago

S1mple created page 主流预训练模型
2 months ago

S1mple updated page Transformer架构 (LLM的基石)
2 months ago

S1mple created page Transformer架构 (LLM的基石)
2 months ago

S1mple created chapter 初识LLM
2 months ago

S1mple updated page Attention注意力机制
2 months ago

S1mple created page Attention注意力机制
2 months ago

S1mple updated page 基于LSTM的文本分类任务
2 months ago

User for 3 months

Created Content

Recently Created Pages View All

LLM 微调 (Fine-tuning): 概述在预训练阶段，大语言模型（LLM）通过在海量通用文本数据上进行训练，学习到了广泛的语言知识、语法结构、世界常识以及一定的推理能力。然而，这些预训...

Prompt 工程（Prompt Engineering）可以被视为一门设计和优化输入提示（Prompt）的艺术和科学，以指导大型语言模型（LLM）高效、准确地完成特定任务。下面我为你梳理一下...

好的，预训练一个大语言模型 (LLM) 是一个复杂且资源密集型的过程。下面是从头到尾的宏观流程，不涉及具体代码细节，但会涵盖关键步骤和考量：阶段一：规划与准备 (The Blueprint) ...

好的，这里提供一个使用 PyTorch 构建的极简 Decoder-only Transformer（类似 GPT-like 结构）进行预训练（Causal Language Modeling ...

好的，我们来梳理一下这些主流预训练模型的特点、适用场景和预训练方式。这是一个庞大且快速发展的领域，我会尽量概括核心信息。核心概念理解：预训练 (Pre-training): 在大规模无标签...