Transformer 核心架构逐层拆解
Transformer 架构 是2017年由 Vaswani 等八位 Google 大佬在论文《Attention is All You Need》中提出的基于自注意力机制(Self-Attention)的序列建模架构,它完全抛弃了循环结构,转而完全依赖一种名为注意力(Attention)的机制来捕捉序列内的依赖关系,从而实现了真正意义上的并行计算。它彻底改变了自然语言处理领域(Natural Language Processing, NLP)及其他序列任务的方式,对当今大语言模型(Large Language Model, LLM)的发展做出了跨时代的贡献。借此博客,分享一下我对 Transformer 架构的理解。希望对你有帮助! Why Self-Attention? .compact-p p { margin: 10px 0; } 当今大语言模型的一大核心任务是处理长文本,专业一点的说法是序列转档。在 Transformer 架构提出之前,传统的序列转档模型依托于循环神经网络(Recurren...
NLP 文本表征:Word Embedding + Tokenizer + BPE 算法全解
2013 年,Mikolov 等人提出 Word2Vec,将文字映射为连续向量,让语义相似的词在空间中彼此靠近——这便是 Word Embedding。它解决了传统稀疏表示(One-Hot、词袋)无法捕捉语义关联的痛点,从此成为连接文本与深度学习的基础桥梁。但词级方案面临 OOV、词表膨胀等缺陷,现代大模型转而采用 Tokenizer + BPE 子词分词。借此博客,系统梳理 Embedding 的技术演进,从原理到代码。 从“符号鸿沟”到“语义空间” 让计算机理解语言,首先要解决一个根本矛盾:人类感知的是「语义」,而计算机处理的是「符号」。当你输入「猫」和「猫咪」,人类知道它们相似;但对计算机而言,这是两个毫无关联的编码。这便是自然语言处理中的「符号鸿沟」——离散符号与连续语义之间的断裂。Embedding 正是跨越这道鸿沟的核心桥梁:它将离散的自然语言符号映射到连续的向量空间,使得语义相似的对象在空间中彼此靠近。这个简洁的思想,支撑起了从 Word2Vec 到 ChatGPT 的所有语言模型。 在 Transformer 体系中,Word Embeddi...
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$ hexo server More info: Server Generate static files1$ hexo generate More info: Generating Deploy to remote sites1$ hexo deploy More info: Deployment
