当前位置：首页 > news >正文

多路归并、败者树、置换-选择排序、最佳归并树

news 2025/10/7 15:25:07

1. 基本概念
多路归并是外部排序第二阶段的核心操作。它将多个已经排序好的序列（称为“归并段”或“顺串”）合并成一个更大的有序序列。这里的“路”（K）指的是同时进行合并的归并段数量。

2. 为什么需要多路归并？

减少归并轮数：这是最根本的原因。归并轮数 \(S = \lceil \log_K N \rceil\)，其中 \(N\) 是初始归并段的数量。增大 K 可以显著减少 S。
- 例子：有 100 个初始归并段。
  - 二路归并（K=2）：需要 \(\lceil \log_2 100 \rceil = 7\) 轮归并。
  - 十路归并（K=10）：需要 \(\lceil \log_{10} 100 \rceil = 2\) 轮归并。
- 归并轮数减少，意味着磁盘 I/O 次数大大降低，从而提升了整体排序效率。

3. 工作原理

4. 核心挑战与解决方案

1. 基本概念
败者树是完全二叉树，它是多路归并中用于高效选择最小元（或最大元）的数据结构。它是锦标赛排序思想的延伸。

2. 为什么需要败者树？
为了解决多路归并中顺序比较效率低下的问题。它通过树形结构记录比较结果，使得每次选出最小元后，重新调整树的代价很小。

3. 工作原理
我们以最小败者树为例（用于选出最小值）：

工作流程分为初始化和调整两步：

初始化：
- 将 K 路元素的第一个值放入叶子节点。
- 从底向上，两两比较，将败者（大值）记录在父节点中，胜者（小值）继续向上比较。
- 最终，树顶的“胜者”就是当前 K 个元素中的最小值。
调整：
- 当我们输出这个最小值后，需要从该最小值所在的归并段中读取下一个元素，替换掉对应的叶子节点。
- 然后，沿着从该叶子节点到根节点的路径，重新进行比赛。
- 比较只在兄弟节点之间进行，新的败者留在父节点，胜者继续向上。
- 这个过程只需要 \(\lceil \log_2 K \rceil\) 次比较。

4. 优势

效率高：初始化需要 K-1 次比较，但之后每次调整（即每次选出一个最小元）仅需 \(\lceil \log_2 K \rceil\) 次比较，与 K 的大小无关。
稳定：比较次数不随 K 的增大而线性增长，使得采用非常大的 K 值进行归并成为可能。

1. 基本概念
置换-选择排序用于外部排序的第一阶段，即生成初始归并段。它的目标是突破内存工作区大小的限制，生成长度大于内存容量的初始归并段。

2. 为什么需要置换-选择排序？
传统方法生成的归并段大小 ≈ 内存工作区大小。如果归并段数量 N 减少，根据公式 \(S = \lceil \log_K N \rceil\)，归并轮数 S 也会减少。置换-选择排序正是通过生成更少、更长的归并段来提升整体效率。

3. 工作原理
假设内存工作区大小为 w。

4. 效果

1. 基本概念
最佳归并树解决了当前初始归并段长度不相等时，如何组织多路归并的顺序，使得总的 I/O 次数最少的问题。它的本质是 K 叉哈夫曼树。

2. 为什么需要最佳归并树？

3. 构建过程（以 K 路归并为例）

构造虚拟归并段：如果初始归并段数量 N 无法直接构成一棵严格的 K 叉树（即 (N-1) % (K-1) != 0），需要补充 (K-1) - (N-1) % (K-1) 个长度为 0 的虚段。这是为了确保在归并过程中，每次都是合并 K 个段，避免最后轮次合并的段数不足，造成浪费。
构建 K 叉哈夫曼树：
- 将所有归并段（包括虚段）视为叶子节点，其权重就是归并段的长度（记录数或字节数）。
- 每次从集合中选择 K 个权重最小 的节点。
- 将它们合并，生成一个新的父节点，该父节点的权重为这 K 个子节点权重之和。
- 将这个新的父节点放回集合中。
- 重复上述过程，直到集合中只剩下一个节点（根节点）。这棵树就是最佳归并树。