GZHZK 的个人博客

发表于2026-06-11

我已经有一段时间没写博客了，这段时间对我来说是比较忙、比较累，但也收获颇丰的三个月。写这篇博客，主要是记录我这段时间的所思所想和所做，谈谈自己的收获、教训和感悟。我是华工28届的一名本科生，现在处于大二下。这是一个很特殊的时间段，说早不早说晚也不晚，有很多事可以去做，也有很多选择留给自己去探索。一、为什么选了算法我并不是从一开始就确定走算法这条路的。大一有两门课考得很不理想（60 多 70 左右），那时候我意识到一个问题：我得尽早想清楚自己以后到底要做什么。开发是一个相对稳妥的选项，对本科生也友好，但我没有选。转折点发生在我大量使用 AI coding 工具的那段时间。我切身感受到，所谓功能应用层的代码对 AI 来说太轻松了（当然这是指大代码库的整体架构能力，现阶段 AI 还稍弱——也有可能是我没试过最好的模型，网上确实有人让 AI 重构代码库在极短时间内取得极好的效果）。一个方向如果 AI 能极快地完成大部分工作，那它对人的核心价值就所剩无几了。我不想把时间赌在一个 AI 越来越擅长的方向上。算法不一样。算法本质是数学与计算机的巧妙融合，很多原理根源于数学，也移...

位置编码：弥补位置信息的问题

发表于2026-03-08

Transformer 核心架构逐层拆解

发表于2026-03-02

Transformer 架构是2017年由 Vaswani 等八位 Google 大佬在论文《Attention is All You Need》中提出的基于自注意力机制（Self-Attention）的序列建模架构，它完全抛弃了循环结构，转而完全依赖一种名为注意力（Attention）的机制来捕捉序列内的依赖关系，从而实现了真正意义上的并行计算。它彻底改变了自然语言处理领域（Natural Language Processing, NLP）及其他序列任务的方式，对当今大语言模型（Large Language Model, LLM）的发展做出了跨时代的贡献。借此博客，分享一下我对 Transformer 架构的理解。希望对你有帮助！ Why Self-Attention? .compact-p p { margin: 10px 0; } 当今大语言模型的一大核心任务是处理长文本，专业一点的说法是序列转档。在 Transformer 架构提出之前，传统的序列转档模型依托于循环神经网络（Recurren...

NLP 文本表征：Word Embedding + Tokenizer + BPE 算法全解

发表于2026-02-25

2013 年，Mikolov 等人提出 Word2Vec，将文字映射为连续向量，让语义相似的词在空间中彼此靠近——这便是 Word Embedding。它解决了传统稀疏表示（One-Hot、词袋）无法捕捉语义关联的痛点，从此成为连接文本与深度学习的基础桥梁。但词级方案面临 OOV、词表膨胀等缺陷，现代大模型转而采用 Tokenizer + BPE 子词分词。借此博客，系统梳理 Embedding 的技术演进，从原理到代码。从“符号鸿沟”到“语义空间” 让计算机理解语言，首先要解决一个根本矛盾：人类感知的是「语义」，而计算机处理的是「符号」。当你输入「猫」和「猫咪」，人类知道它们相似；但对计算机而言，这是两个毫无关联的编码。这便是自然语言处理中的「符号鸿沟」——离散符号与连续语义之间的断裂。Embedding 正是跨越这道鸿沟的核心桥梁：它将离散的自然语言符号映射到连续的向量空间，使得语义相似的对象在空间中彼此靠近。这个简洁的思想，支撑起了从 Word2Vec 到 ChatGPT 的所有语言模型。在 Transformer 体系中，Word Embeddi...

Hello World

发表于2026-02-24

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick Start Create a new post 1$ hexo new "My New Post" More info: Writing Run server 1$ hexo server More info: Server Generate static files 1$ hexo generate More info: Generating Deploy to remote sites 1$ hexo deploy More info: Deployment