Advanced Search
Search Results
57 total results found
Pytorch
PyTorch 张量 (Tensors) 如果你已经熟悉 NumPy 的 ndarray,那么理解 PyTorch 的张量会非常容易。PyTorch 张量与 NumPy 数组非常相似,但有一个关键的区别:张量可以在 GPU 上进行运算,从而极大地加速计算,这对于训练大模型至关重要。 什么是张量? 多维数组。 0维张量:标量 (一个数字) 1维张量:向量 (一列数字) 2维张量:矩阵 更高维度的张量... (例如,在 LLM 中,一个批次的词嵌入数据通常是 3D 张量:[batch_size, sequence...
基于LSTM的文本分类任务
重点 正确的理解应该是(针对标准 Seq2Seq,不考虑有特殊输出层的编码器): h_1 和 c_1 的传递: 正如我们之前讨论的,在编码器的每个隐含层,h_t 和 c_t 会一直向后传递到下一个时间步 t+1,h_t即隐含层的输出,并不是输出层的输出y_t,隐含层的输出h_t不会丢弃,会被保存起来。 编码器的最终“思想总结”: 当编码器处理完整个输入序列后 (到达最后一个时间步 T),编码器最后一个隐含层(例如图中的“隐含层2”)所输出的隐藏状态 h_T^{(last\_layer)} 和细胞状态 c_T^{...
卷积神经网络CNN
1. 卷积神经网络 (CNN) 用于图像分类 任务假设: 我们有一个图像数据集,每张图片对应一个类别(例如,CIFAR-10 数据集中的10个类别:飞机、汽车、鸟、猫等)。 模型输入是一张图片,输出是该图片属于各个类别的概率。 模型结构设想 (类似 VGGNet 的简化版思路): 多个卷积块 (Convolutional Blocks): 每个卷积块包含: 一个或多个 Conv2d 层,用于提取特征。 一个 ReLU 激活函数,引入非线性。 一个 MaxPool2d 层,用于降采样,减少特征图尺寸,增大感受野...
循环神经网络RNN
RNN基本原理 想象一下你在读一句话,或者听别人说话。 你的大脑是怎么工作的? 当你读到或听到一个词时,你不仅仅是理解这个词本身的意思,你还会结合前面已经读过或听过的词来理解当前这个词在整个句子中的含义。 比如,听到“我今天感觉很...”,你大脑里会根据前面的“我今天感觉很”来预测后面可能出现的词,比如“开心”、“难过”、“累”等等。 你的大脑里似乎有一个**“短期记忆”**,它保存了你刚刚处理过的信息,并用这些信息来帮助理解接下来的内容。 RNN 就是想模拟这种“带有记忆”的处理方式。 普通神经网络 ...
office tools 安装
本页面用于帮助使用office tools工具安装 官网: https://otp.landian.vip/zh-cn/download.html 教程见: https://zhuanlan.zhihu.com/p/624057723
自然语言处理 (NLP) 基础
文本预处理 原始的文本数据充满了各种“噪音”和“冗余”,直接将其用于机器学习模型通常效果不佳。文本预处理的目标是将原始文本转换为一种更干净、更结构化、更适合模型学习的形式。 1. 分词 (Tokenization) 定义: 将连续的文本字符串分割成一系列有意义的单元 (tokens) 的过程。这些单元通常是词语、数字、标点符号,或者在某些情况下是子词 (subwords) 或字符。 核心思想: 文本的基本意义单元是词语。为了让计算机能够处理文本,首先需要将文本分解成这些基本单元。 重要性: 分词是大多数 NLP...
Attention注意力机制
自注意力机制 Self-Attention (https://space.bilibili.com/88461692/lists) 不懂去这个链接看视频 想象一下你在阅读一个句子,比如:“银行旁边的河岸上长满了青草。” 当你读到“岸”这个字时,为了准确理解它的意思(是河岸还是银行的岸?),你的大脑会自动地将注意力更多地放在句子中的相关词语上。在这个例子中,“河”这个字会告诉你这里的“岸”更可能是指“河岸”。 注意力机制的核心思想就是模拟人类这种关注重要信息、忽略不相关信息的能力。 它允许模型在处理一个序列中的某个元...
Transformer架构 (LLM的基石)
整体概览: 这张图展示了一个典型的编码器-解码器 (Encoder-Decoder) 架构的 Transformer。 左半部分 (蓝色框,标号2) 是 编码器 (Encoder),负责理解输入序列(比如源语言句子)。 右半部分 (绿色框,标号3) 是 解码器 (Decoder),负责根据编码器的理解和已经生成的部分,生成输出序列(比如目标语言句子)。 整个模型从下往上处理数据,最终在最顶端输出结果。 "Nx" 表示编码器和解码器内部的核心模块(带有 Attention 和 Feed Forward 的那一大块...
PyTorch 复数相关
解锁 PyTorch 中的复数之力:从基础到 RoPE 实战指南 在机器学习的广阔天地里,我们通常与实数打交道。但当进入信号处理、量子计算,乃至像 LLaMA 这样先进大语言模型的底层实现时,复数(Complex Number)便登上了舞台。PyTorch 提供了一套强大而优雅的 API 来处理复数张量,理解它们能为你打开一扇通往更高效、更精妙算法世界的大门。 一、创建复数张量:三种基本方式 首先,我们得有复数张量才能操作。PyTorch 提供了多种便捷的创建方式。 1. torch.complex(real, i...
Jupyter 安装配置
🚀 Ubuntu 下的 Jupyter 终极配置指南:从安装到多环境管理 Jupyter Notebook/Lab 是数据科学、机器学习乃至日常编程探索的瑞士军刀。然而,一个干净、可扩展、能轻松切换不同项目依赖环境的 Jupyter 配置,才是真正释放其生产力的关键。 本指南将带你一步步在 Ubuntu 上搭建一个专业、稳固的 Jupyter Lab 环境。 ✨ 核心理念: 我们将遵循 Python 社区的最佳实践,使用虚拟环境 (venv) 来隔离 Jupyter 本身及其为不同项目服务的“内核”,彻底告别环境...
主流预训练模型
好的,我们来梳理一下这些主流预训练模型的特点、适用场景和预训练方式。这是一个庞大且快速发展的领域,我会尽量概括核心信息。 核心概念理解: 预训练 (Pre-training): 在大规模无标签文本数据上进行训练,让模型学习通用的语言知识和模式。 微调 (Fine-tuning): 在特定任务的有标签小数据集上,对预训练好的模型进行进一步训练,使其适应特定任务。 MLM (Masked Language Modeling): 随机遮盖输入句子中的一些词,让模型预测这些被遮盖的词。主要用于 Encoder 架构。 N...
一个简单的预训练代码(了解流程即可)
好的,这里提供一个使用 PyTorch 构建的极简 Decoder-only Transformer(类似 GPT-like 结构)进行预训练(Causal Language Modeling - CLM)的代码示例。 这个例子会非常简化,以便于理解核心概念: 数据: 使用一个极小的、重复的字符级文本数据集。 分词器 (Tokenizer): 一个简单的字符级分词器。 模型: 一个简化的 Transformer Decoder (这里为了方便,我们会使用 nn.TransformerEncoder 并传入一个 c...
预训练LLM的宏观流程
好的,预训练一个大语言模型 (LLM) 是一个复杂且资源密集型的过程。下面是从头到尾的宏观流程,不涉及具体代码细节,但会涵盖关键步骤和考量: 阶段一:规划与准备 (The Blueprint) 确定目标与需求: 模型规模: 决定模型的参数量级 (例如 7B, 13B, 70B 等)。这直接影响资源需求、训练时间和潜在能力。 模型架构: 选择基础架构(通常是 Transformer 的变体)。是 Decoder-only (如 GPT 系列), Encoder-Decoder (如 T5, BART), 还是其...
prompt工程
Prompt 工程(Prompt Engineering)可以被视为一门设计和优化输入提示(Prompt)的艺术和科学,以指导大型语言模型(LLM)高效、准确地完成特定任务。 下面我为你梳理一下学习 Prompt 工程需要掌握的方面: 阶段一:Prompt 工程基础与核心概念 理解 Prompt 的构成: 指令 (Instruction): 明确告诉模型要做什么。例如:“将下面的英文翻译成中文:” 上下文 (Context): 提供相关的背景信息,帮助模型理解任务。例如:在翻译任务中提供待翻译的文本。 输入数...
微调
LLM 微调 (Fine-tuning): 概述 在预训练阶段,大语言模型(LLM)通过在海量通用文本数据上进行训练,学习到了广泛的语言知识、语法结构、世界常识以及一定的推理能力。然而,这些预训练模型是“通才”,它们并不针对任何特定的下游任务或特定的行为模式进行优化。 微调 (Fine-tuning) 的核心目标是:在预训练模型的基础上,使用特定任务或领域的数据集进行进一步训练,从而使模型能够更好地适应这些特定需求,表现出期望的行为或在特定任务上达到更高的性能。 可以把预训练模型想象成一个已经完成了大学通识教育的学...
Pytorch nn AND nn.Functional
PyTorch API 技术指南:原理与实践 本指南旨在为开发者提供一份关于 PyTorch 核心 API 的技术参考。内容涵盖了从模型架构定义到高级张量操作的常用接口,并对每个 API 的基本原理和标准用法进行了解析,辅以简明的代码示例。 第一部分:核心模型架构 (torch.nn) torch.nn 命名空间提供了构建神经网络所需的所有基础模块。这些模块是面向对象的设计,封装了可学习的参数和相应的计算逻辑。 1.1 nn.Module: 所有神经网络模块的基类 原理: nn.Module 是 PyTorch 模...
Pytorch Tensor 变换
PyTorch 维度变换权威指南:从 view 到 permute 在 PyTorch 中,数据以张量(Tensor)的形式流动。如果你想自如地构建、调试和优化神经网络,那么精通张量维度的变换操作是必不可少的基本功。无论是为了匹配模型的输入要求,还是为了实现复杂的算法逻辑,你都将频繁地与张量的形状(Shape)打交道。 本指南将深入探讨 PyTorch 中所有核心的维度操作 API,不仅解释它们的用法,更剖析其背后的原理——特别是 内存布局(Memory Layout) 这一关键概念,它决定了哪些操作高效,哪些操作...
Pytorch 数学运算
PyTorch 数学运算核心指南:从 sum 到 @ 在深度学习的引擎盖下,一切皆为数学。损失的计算、梯度的传播、权重的更新、性能的评估,每一个环节都离不开大量的数学运算。PyTorch 提供了一套极其丰富、高度优化的数学函数库,它们是构建和训练任何神经网络的基石。 本指南将系统地梳理 PyTorch 中最重要的数学运算,并将其分为四大类:规约(Reduction)运算、逐元素(Element-wise)运算、线性代数运算和比较运算,帮助你彻底掌握这些核心工具。 第一部分:规约运算 - 从张量中提炼信息 规约(Re...
新页面
好的,这是一个非常经典的高性能计算(HPC)和AI集群的搭建需求。你拥有非常棒的硬件基础(8台8卡服务器 + IB网络),搭建一个高效、易用的系统是完全可行的。 下面我将为你提供一套完整的、分阶段的部署方案,从系统架构设计到具体的软件选型和配置,最终实现你想要的效果。 第一部分:整体架构设计 (Architecture) 首先,我们需要一个清晰的架构。你的8台服务器不能都是对等的,需要有角色划分。 管理/登录节点 (Head/Login Node): 角色: 集群的“大脑”和“大门”。 功能: 用户通过S...
微信本地数据库破解
简述参考 https://www.52pojie.cn/thread-1084703-1-1.html 详解:https://www.cnblogs.com/RainbowTechnology/p/18528483