BinaryOracle
diff --git a/‎src/.vuepress/public/assets/cover/ChatBot.png
44.2 KB b/‎src/.vuepress/public/assets/cover/ChatBot.png
44.2 KB
diff --git a/‎src/assets/cover/ChatBot.png
44.2 KB b/‎src/assets/cover/ChatBot.png
44.2 KB
diff --git a/‎src/open_projects/基于Transformer实现的聊天机器人.md
Lines changed: 19 additions & 0 deletions b/‎src/open_projects/基于Transformer实现的聊天机器人.md
Lines changed: 19 additions & 0 deletions
diff --git a/‎src/other/Attention运算过程中维度变换的理解.md
Lines changed: 159 additions & 0 deletions b/‎src/other/Attention运算过程中维度变换的理解.md
Lines changed: 159 additions & 0 deletions
@@ -0,0 +1,19 @@
+---
+icon: file
+category:
+  - 开源项目
+tag:
+  - 编辑中
+footer: 技术共建，知识共享
+date: 2025-05-25
+cover: assets/cover/ChatBot.png
+author:
+  - BinaryOracle
+---
+
+`基于Transformer实现的聊天机器人` 
+
+<!-- more -->
+
+# 基于Transformer实现的聊天机器人
+
@@ -0,0 +1,159 @@
+---
+title: Attention运算过程中维度变换的理解
+icon: file
+category:
+  - 开源项目
+tag:
+  - 已发布
+footer: 技术共建，知识共享
+date: 2025-06-10
+author:
+  - BinaryOracle
+---
+
+`Attention运算过程中维度变换的理解` 
+
+<!-- more -->
+
+# Attention运算过程中维度变换的理解
+
+在注意力机制（特别是 **Transformer** 中的 **自注意力机制**）中，**Q（Query）、K（Key）、V（Value）** 的维度对最终注意力输出的结果维度有直接影响。我们来一步步分析这个过程：
+
+## 一、注意力机制的基本流程
+
+在标准的 **缩放点积注意力（Scaled Dot-Product Attention）** 中，计算公式如下：
+
+$$
+\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
+$$
+
+其中：
+- $Q \in \mathbb{R}^{n \times d_k}$
+- $K \in \mathbb{R}^{m \times d_k}$
+- $V \in \mathbb{R}^{m \times d_v}$
+
+> - $n$：query的数量（如句子长度）
+> - $m$：key/value的数量（也通常是句子长度）
+> - $d_k$：每个 query 和 key 的维度
+> - $d_v$：每个 value 的维度
+
+
+
+## 二、Q、K、V 的初始维度对结果的影响
+
+### 1. **Q × K^T 的维度**
+
+这是注意力权重矩阵的来源。
+
+- $Q \in \mathbb{R}^{n \times d_k}$
+- $K^T \in \mathbb{R}^{d_k \times m}$
+- 所以$QK^T \in \mathbb{R}^{n \times m}$
+
+👉 这个矩阵表示的是每个 query 对应所有 key 的相似度（即注意力得分），共$n \times m$个值。
+
+
+
+### 2. **Softmax 操作**
+
+对每一行做 softmax，得到归一化的注意力权重：
+
+- 输入：$n \times m$
+- 输出：仍是$n \times m$
+
+
+
+### 3. **与 V 相乘**
+
+- 注意力权重：$A \in \mathbb{R}^{n \times m}$
+- Value 矩阵：$V \in \mathbb{R}^{m \times d_v}$
+- 结果：$AV \in \mathbb{R}^{n \times d_v}$
+
+👉 最终输出的维度是$n \times d_v$，也就是和输入的 query 数量一致，但每个输出向量的维度由 value 的维度决定。
+
+
+
+## 三、总结：输入维度 → 输出维度
+
+| 输入 | 维度 | 含义 |
+| --- | --- | --- |
+| Query (Q) | $n \times d_k$ | 查询向量，n 是序列长度 |
+| Key (K) | $m \times d_k$ | 键向量，用于匹配查询 |
+| Value (V) | $m \times d_v$ | 值向量，实际携带信息 |
+
+| 输出 | 维度 | 含义 |
+| --- | --- | --- |
+| Attention Output | $n \times d_v$ | 每个 query 聚合了所有 value 的加权信息 |
+
+
+
+## 四、如何理解这个过程？
+
+我们可以从以下角度理解：
+
+### ✅ 1. **信息融合机制**
+- 每个 Query 都是在寻找最相关的 Key。
+- 根据相关性（注意力权重），从对应的 Value 中提取信息。
+- 最终每个 Query 得到一个融合了上下文信息的向量。
+
+### ✅ 2. **维度设计的灵活性**
+- $d_k$控制了相似度计算的维度，影响模型容量和梯度稳定性。
+- $d_v$决定了输出的信息维度，可以独立于$d_k$设计。
+- 这种分离的设计让模型更灵活，比如多头注意力中可以分别控制每个 head 的表达能力。
+
+### ✅ 3. **可类比为“软检索”系统**
+- 类似数据库查询：
+  - Query 是你输入的问题；
+  - Key 是数据库中的索引；
+  - Value 是数据库中的内容；
+  - Attention 就是根据问题找到相关内容并返回。
+
+
+
+## 五、例子说明（以 Transformer 为例）
+
+假设我们在 Transformer 中：
+
+- 输入是一个 batch of sequences，shape 为$B \times T \times D$
+- 我们通过线性变换得到：
+  - $Q = XW_Q \in \mathbb{R}^{B \times T \times d_k}$
+  - $K = XW_K \in \mathbb{R}^{B \times T \times d_k}$
+  - $V = XW_V \in \mathbb{R}^{B \times T \times d_v}$
+
+那么最终输出为：
+
+$$
+\text{Output} \in \mathbb{R}^{B \times T \times d_v}
+$$
+
+> 如果使用多头注意力（Multi-head Attention），我们会拼接多个这样的头，最后再经过一个线性层映射回原始维度$D$。
+
+
+
+## 六、常见疑问解答
+
+### ❓Q: 为什么$d_k$和$d_v$可以不同？
+> 因为它们的作用不同：  
+> - $d_k$是用于计算相似度的维度；
+> - $d_v$是用于信息表达的维度；  
+> 
+> 两者解耦可以让模型更灵活地分配资源。
+
+### ❓Q: 为什么要除以$\sqrt{d_k}$？
+> 防止内积过大导致 softmax 梯度消失。  
+> 当$d_k$较大时，QK^T 的数值会很大，除以$\sqrt{d_k}$可以缓解这个问题。
+
+
+
+## 七、可视化示意
+
+```
+Q: [n x dk]     K: [m x dk]     V: [m x dv]
+       ↓              ↓               ↓
+   Q @ K.T → [n x m]                ↓
+       ↓                            ↓
+   softmax → [n x m]         V → [m x dv]
+       ↓__________________________↓
+                     ↓
+                 Output → [n x dv]
+```
+