Advanced Search
Search Results
23 total results found
数学基础
线性代数 微积分 概率与统计
Python 基础
熟练掌握Python语法 数据结构 面向对象编程
Pandas基础
数据处理与分析的利器,尤其擅长处理表格型数据
Matplotlib基础
数据可视化
NumPy基础
NumPy 基础:大模型中的张量操作 在大模型(LLMs)中,所有数据,包括词嵌入、模型权重、偏置等,都以多维数组(即 张量)的形式存在和处理。NumPy 是 Python 中处理这些数组的基础库。 1. np.array(): 从 Python 列表创建数组 这是将原始数据(如文本转换后的ID序列对应的嵌入向量)加载到模型处理流程的起点。 功能: 从 Python 列表或元组创建 NumPy 数组(张量)。 大模型应用: 加载词嵌入、输入序列等。 import numpy as np # 词嵌入向量 ...
机器学习的四大范式
1. 监督学习 (Supervised Learning) 核心思想:从“有标签”的数据中学习,模型的目标是学习一个从输入特征到已知标签的映射函数。 数据形式: 数据集由成对的 (X, y) 组成。 X: 输入特征 (Features)。 y: 对应的正确答案或目标标签 (Label)。 目标: 学习一个映射函数 f,使得 y = f(X)。当有新的、未见过的数据 X_new 输入时,模型能够准确预测出其对应的标签 y_new。 工作流程 数据收集与准备:收集大量的、带有清晰标签的训练数据。 模型...
机器学习算法
线性回归 (Linear Regression) 核心思想 (Core Idea): 假设输入特征 (X) 和连续的输出目标 (y) 之间存在线性关系。 目标是找到一个(或一组)最佳的权重 (weights/coefficients) 和偏置 (bias/intercept),使得通过这些参数构建的线性方程能够最好地拟合数据点。 “最好地拟合”通常指最小化预测值与真实值之间的均方误差 (Mean Squared Error, MSE)。 数学表示 (Mathematical Representation...
数据预处理
想象一下你要做一道美味的菜肴(比如“宫保鸡丁”),而你手头有一些原始的食材(数据)。直接把原始食材扔进锅里炒,很可能做出来的东西不好吃或者根本不能吃。你需要对食材进行一系列处理,这就是数据预处理。 1. 数据清洗 (Data Cleaning) 通俗例子: 挑拣食材: 你拿到一把青菜,发现里面有些烂叶子、小虫子或者泥土。你需要把这些坏的、脏的、不需要的东西挑出来扔掉。 处理不一致: 你发现有些鸡丁切得特别大,有些特别小,或者有些食谱记录的辣椒单位是“个”,有些是“克”,你需要把它们统一一下。 对应数据...
评估指标
核心概念:混淆矩阵 (Confusion Matrix) 在介绍具体的评估指标之前,我们首先需要理解混淆矩阵,因为很多分类指标都源于它。混淆矩阵是一个表格,用于可视化分类模型的性能。对于一个二分类问题(例如,预测“是”或“否”,“正类”或“负类”),混淆矩阵通常如下所示: 预测为正类 (Predicted Positive) 预测为负类 (Predicted Negative) 实际为正类 (Actual Positive) TP (真正例) FN (假负例) 实际为负类 (Actual Neg...
深度学习基础
感知机 (Perceptron) 通俗例子: 想象一个非常简单的**“决策机器人”**,它要根据一些输入信息来做一个二选一的决定(比如“去”或“不去”,“是”或“否”)。 收集信息 (输入 Inputs): 机器人收集多个信息片段,比如: 天气好不好?(x₁) 朋友去不去?(x₂) 今天心情如何?(x₃) 这些信息可以是数值(比如天气评分1-10)或者0/1的布尔值。 给信息赋予权重 (Weights): 机器人对每个信息的重要性有不同的看法: 天气可能很重要 (w₁ = 0.5) 朋友去不去非常重...
Scikit-learn基础
传统机器学习算法、数据预处理、模型评估
Pytorch
PyTorch 张量 (Tensors) 如果你已经熟悉 NumPy 的 ndarray,那么理解 PyTorch 的张量会非常容易。PyTorch 张量与 NumPy 数组非常相似,但有一个关键的区别:张量可以在 GPU 上进行运算,从而极大地加速计算,这对于训练大模型至关重要。 什么是张量? 多维数组。 0维张量:标量 (一个数字) 1维张量:向量 (一列数字) 2维张量:矩阵 更高维度的张量... (例如,在 LLM 中,一个批次的词嵌入数据通常是 3D 张量:[batch_size, sequence...
基于LSTM的文本分类任务
重点 正确的理解应该是(针对标准 Seq2Seq,不考虑有特殊输出层的编码器): h_1 和 c_1 的传递: 正如我们之前讨论的,在编码器的每个隐含层,h_t 和 c_t 会一直向后传递到下一个时间步 t+1,h_t即隐含层的输出,并不是输出层的输出y_t,隐含层的输出h_t不会丢弃,会被保存起来。 编码器的最终“思想总结”: 当编码器处理完整个输入序列后 (到达最后一个时间步 T),编码器最后一个隐含层(例如图中的“隐含层2”)所输出的隐藏状态 h_T^{(last\_layer)} 和细胞状态 c_T^{...
卷积神经网络CNN
1. 卷积神经网络 (CNN) 用于图像分类 任务假设: 我们有一个图像数据集,每张图片对应一个类别(例如,CIFAR-10 数据集中的10个类别:飞机、汽车、鸟、猫等)。 模型输入是一张图片,输出是该图片属于各个类别的概率。 模型结构设想 (类似 VGGNet 的简化版思路): 多个卷积块 (Convolutional Blocks): 每个卷积块包含: 一个或多个 Conv2d 层,用于提取特征。 一个 ReLU 激活函数,引入非线性。 一个 MaxPool2d 层,用于降采样,减少特征图尺寸,增大感受野...
循环神经网络RNN
RNN基本原理 想象一下你在读一句话,或者听别人说话。 你的大脑是怎么工作的? 当你读到或听到一个词时,你不仅仅是理解这个词本身的意思,你还会结合前面已经读过或听过的词来理解当前这个词在整个句子中的含义。 比如,听到“我今天感觉很...”,你大脑里会根据前面的“我今天感觉很”来预测后面可能出现的词,比如“开心”、“难过”、“累”等等。 你的大脑里似乎有一个**“短期记忆”**,它保存了你刚刚处理过的信息,并用这些信息来帮助理解接下来的内容。 RNN 就是想模拟这种“带有记忆”的处理方式。 普通神经网络 ...
自然语言处理 (NLP) 基础
文本预处理 原始的文本数据充满了各种“噪音”和“冗余”,直接将其用于机器学习模型通常效果不佳。文本预处理的目标是将原始文本转换为一种更干净、更结构化、更适合模型学习的形式。 1. 分词 (Tokenization) 定义: 将连续的文本字符串分割成一系列有意义的单元 (tokens) 的过程。这些单元通常是词语、数字、标点符号,或者在某些情况下是子词 (subwords) 或字符。 核心思想: 文本的基本意义单元是词语。为了让计算机能够处理文本,首先需要将文本分解成这些基本单元。 重要性: 分词是大多数 NLP...
Attention注意力机制
自注意力机制 Self-Attention (https://space.bilibili.com/88461692/lists) 不懂去这个链接看视频 想象一下你在阅读一个句子,比如:“银行旁边的河岸上长满了青草。” 当你读到“岸”这个字时,为了准确理解它的意思(是河岸还是银行的岸?),你的大脑会自动地将注意力更多地放在句子中的相关词语上。在这个例子中,“河”这个字会告诉你这里的“岸”更可能是指“河岸”。 注意力机制的核心思想就是模拟人类这种关注重要信息、忽略不相关信息的能力。 它允许模型在处理一个序列中的某个元...
Transformer架构 (LLM的基石)
整体概览: 这张图展示了一个典型的编码器-解码器 (Encoder-Decoder) 架构的 Transformer。 左半部分 (蓝色框,标号2) 是 编码器 (Encoder),负责理解输入序列(比如源语言句子)。 右半部分 (绿色框,标号3) 是 解码器 (Decoder),负责根据编码器的理解和已经生成的部分,生成输出序列(比如目标语言句子)。 整个模型从下往上处理数据,最终在最顶端输出结果。 "Nx" 表示编码器和解码器内部的核心模块(带有 Attention 和 Feed Forward 的那一大块...
主流预训练模型
好的,我们来梳理一下这些主流预训练模型的特点、适用场景和预训练方式。这是一个庞大且快速发展的领域,我会尽量概括核心信息。 核心概念理解: 预训练 (Pre-training): 在大规模无标签文本数据上进行训练,让模型学习通用的语言知识和模式。 微调 (Fine-tuning): 在特定任务的有标签小数据集上,对预训练好的模型进行进一步训练,使其适应特定任务。 MLM (Masked Language Modeling): 随机遮盖输入句子中的一些词,让模型预测这些被遮盖的词。主要用于 Encoder 架构。 N...
一个简单的预训练代码(了解流程即可)
好的,这里提供一个使用 PyTorch 构建的极简 Decoder-only Transformer(类似 GPT-like 结构)进行预训练(Causal Language Modeling - CLM)的代码示例。 这个例子会非常简化,以便于理解核心概念: 数据: 使用一个极小的、重复的字符级文本数据集。 分词器 (Tokenizer): 一个简单的字符级分词器。 模型: 一个简化的 Transformer Decoder (这里为了方便,我们会使用 nn.TransformerEncoder 并传入一个 c...