数学中最核心的概念——数学空间，被视为所有数学理论的基石

2024-08-30科学

在人工智能研究中，数学空间的术语可能会让人望而生畏。幸运的是，要理解这些概念并不总是掌握核心AI思想的关键。然而，当读者无法完全理解研究人员的意图时，可能仍会感到不满。本文将首先解释一些关键术语，然后探讨在机器学习（ML）中最相关的数学空间。数学空间的领域非常广阔，但本文旨在在机器学习的背景下提供基础理解，同时也为那些有兴趣深入研究该主题的人提供参考。

数学空间表现出一种类似于面向对象设计的层次结构。在这个层次结构的顶端，是最抽象的空间，如拓扑空间，它们确立了连续性和收敛性等基本概念。随着我们在层次结构中向下移动，空间变得更加专门化，获得了额外的结构和属性，以便适应特定的应用。

域（Fieds）

让我们从讨论「域」这一种数学空间开始。实数和复数都构成了域。尽管这一概念基本，但它提供了一个快速的概述，并引入了一些相关的术语。

一个域⟨F, +, ·⟩由一个集合F构成，该集合配备了两个二元运算（即通过两个元素产生第三个元素的运算）：

加法（+）

乘法（·）

实数集合ℝ构成了一个域，其中包含所有实数。对实数定义的加法（+）和乘法（·）以通常的方式进行。然而，为了符合「域」的要求，这些运算必须遵守以下公理（基本规则）：

对于所有a, b, c ∈ F：

1. 在加法和乘法下封闭：a + b ∈ F, a · b ∈ F。

2. 加法和乘法的结合性：(a + b) + c = a + (b + c)，(a · b) · c = a · (b · c)。

3. 加法和乘法的交换性：a + b = b + a， a · b = b · a。

4. 存在加法和乘法的单位元：

存在一个元素0 ∈ F，使得a + 0 = a = 0 + a，对所有a ∈ F成立。

存在一个元素1 ∈ F（其中0 ≠ 1），使得a · 1 = a = 1 · a，对所有a ∈ F成立。

5. 存在加法和乘法的逆元：

对于每个a ∈ F，存在一个元素-a ∈ F，使得a + (-a) = 0 = (-a) + a。

对于每个a ∈ F且a ≠ 0，存在一个元素a⁻¹ ∈ F，使得a · a⁻¹ = 1 = a⁻¹ · a。

6. 乘法对加法的分配律：a · (b + c) = (a · b) + (a · c)

一个域在加法和乘法下是封闭的。这意味着在域内进行这些运算总会产生一个仍在同一域内的元素。

在量子力学中，复数域ℂ（由复数组成）对于描述量子现象至关重要。有理数构成了有理数域ℚ， 而整数不构成域 。这是因为大多数整数（除1以外）没有乘法逆元，违反了域公理中要求所有非零元素都存在乘法逆元的条件。

有序域

有序域是配备有序关系（≤）的域。有理数（ℚ）和实数（ℝ）是有序域的例子。

空间

在数学中，空间的概念虽然抽象，但却极具力量。它始于一个集合——通常称为点或元素的对象的集合。但仅仅是一个集合并没有太大意义。当我们为集合添加不同的结构时，奇妙之处就发生了，这赋予了点意义和联系。这种通过各种结构增强集合的过程催生了各种各样的数学空间，每个空间都拥有其独特的属性和实际应用。

空间是一个可以赋予结构的集合：

代数结构 ：它定义了在空间中的点上进行的运算（如加法或乘法）和规则（公理）。

关系：这些指定了元素之间的关系。例如，在一个有序集合中，关系决定了一个元素是小于还是大于另一个元素。

度量（距离函数） ：它们提供了一种数值方法，用于测量空间中点与点之间的距离或接近程度，从而能够研究收敛性、紧致性和连续性等概念。

拓扑：它定义了一种更普遍的接近概念，不一定依赖于数值距离。

度量空间

度量空间是赋予了称为度量的距离函数的空间，通常是理解数学空间的第一步。空间的定义通常以括号⟨ ⟩或圆括号 ( ) 表示，以指定集合的名称和应用于其的特定结构。

M代表度量空间的基础集合，它可以由数字、函数、序列或其他数学对象组成。在上下文明确的情况下，我们也可以将整个度量空间称为 M。度量d是一个函数，它为每对元素分配一个非负实数，从而引入了它们之间「距离」的概念。这种结构允许对距离进行分析，并且还可以讨论收敛性和连续性。

常见的度量包括曼哈顿距离（L1）和欧几里得（L2）距离。

曼哈顿距离

欧几里得距离

然而，度量函数必须满足以下条件，对于所有 M 中的 x、y 和 z：

当我们设 = 时，它们得出( , )是非负的结论。

因此，这三个性质等价于以下性质。

非负性 ：(,)≥0。

对称性 ：距离在两个方向上是相同的。

三角不等式 ：直线路径是最短的。

度量的广义定义允许广泛的适用性和对基本概念的一致操作。例如，在生成式AI中用于更高效训练的Wasserstein损失满足度量函数的标准。这使得我们可以将度量空间的性质应用于概率分布，而无需创建新的数学框架。

序列

序列为研究收敛和极限等概念提供了基础工具。在抽象的数学空间中，将序列简单地视为一个有序的数字列表显得过于局限。我们需要重新建立这个概念，以适应其他数学对象（如函数），同时保留有序进程的核心思想。

让我们在度量空间的背景下探讨收敛性和极限的概念。

在空间 X 中的序列是指

X 是一个数学空间。

度量空间中的收敛性和极限

在度量空间的背景下，如果序列的各项随着序列的无限进行而接近一个特定的极限，那么该序列被称为收敛的。更正式地说，如果度量空间中的一个序列收敛到一个极限 ∈，那么对于每一个正数 ϵ（无论多小），都存在一个自然数 N，使得对所有 ≥，序列的项与 L 之间的距离小于 ϵ。这可以用数学形式表示为：

一个度量空间中的序列如果接近于属于空间 X 的特定极限，那么这个序列将有一个极限 L∈X。

然而，这种方法依赖于事先知道极限，但这并不总是可能的。为了解决这个问题，数学家们发展了柯西序列的概念。

柯西序列

柯西序列被定义为一个序列，其中的元素随着序列的进展变得任意接近。为了使一个序列成为柯西序列，对于任意给定的正距离 ϵ，存在一个序列中的点，从该点开始，任何两个元素之间的距离总是小于 ϵ。

定义：对于每一个正实数 ϵ（无论多小），存在一个值 N（一个自然数，1, 2, 3, …），使得 , ≥ ，并且

示例

让我们考察一个在ℝ中的序列：3，3.1，3.14，3.141, …。这个序列逐次增加一位小数来逼近 π。在这个例子中，我们使用通常的度量 (,)=∣−∣。对于 <，m 项与 n 项之间的差距逐渐变小于：

因此，对于任意正数 ε，存在一个 N，使得对于所有大于 N 的 m 和 n，m 项与 n 项之间的差距小于 ε。

完备性

一个收敛的序列总是一个柯西序列。然而，并不是所有的柯西序列都是收敛的。举例来说，一个完全由有理数集合 ℚ 构成的柯西序列。这个序列中的每一项都是一个有理数。

如果这个序列有一个极限 x，那么

然而，没有任何有理数可以满足这个条件。这个序列在有理数空间中没有极限，这意味着它并不收敛。为了使序列完备，我们可以将空间扩展到包含R。

如果一个空间是不完备的，那么在这个空间中可能存在一些「缺失的点」，这些点是一些柯西序列的潜在极限点，但它们不在空间内。

如果一个度量空间中的每个柯西序列都收敛到空间内的一个极限，那么这个度量空间被称为完备的，确保没有序列在收敛过程中「逃逸」出空间。

在处理不完备的度量空间时会遇到挑战。我们可能会使用迭代方法或数值方法构造一个近似解的序列。随着序列的进展，近似解越来越接近，形成度量空间中的柯西序列。理想情况下，我们希望这些近似解收敛到一个极限，并证明这个极限确实是一个解。然而，这种方法只有在底层度量空间是完备的情况下才有保证可行。否则，我们可能需要扩展这个空间。

定义域与值域

函数的定义域是指所有可能的输入值的集合，即函数在这些输入值上有定义。本质上，它告诉你可以输入到函数中的内容。另一方面，函数的值域指的是函数在其定义域的每个元素上作用后所能产生的所有输出值的集合。

连续性

极限和连续性是微分计算中的基础构件。柯西序列提供了一种在更广泛的度量空间背景下定义和分析极限的方法。让我们讨论度量空间之间函数的连续性概念。

如果从一个度量空间 X 到另一个度量空间 Y 的函数 f 在 X 中的一个点x_0处是连续的，那么对于每个 ϵ>0，都存在一个 δ>0，使得对所有 X 中的 x，如果它们与x_0的距离满足

这个定义确保了在x_0附近的输入的微小变化会导致 f(x_0) 附近的输出产生微小变化。

在深度学习中，连续性对于确保模型输出随着输入的变化而平滑变化至关重要，这有助于模型的稳定训练。它允许使用基于梯度的优化技术，例如反向传播，这对有效训练神经网络至关重要。连续性还有助于模型的泛化，防止预测的突然变化，从而使模型更可靠、更易解释。

可数性

处理无限可能性是一个挑战。在数学空间中，可数性主要旨在确保结构的可管理性和良好行为。可数性条件有助于简化分析和拓扑学，例如存在可数基和能够用有限集逼近元素。

一个集合如果可以与自然数（1, 2, 3, …）建立一一对应关系，则被认为是可数的。这意味着你可以按顺序列出该集合的元素。正式地说，一个集合是可数的，如果存在一个注入函数 f : F → N（自然数），使得 F 中的每个元素都可以映射到N中的一个唯一元素。

然而，这些集合可以包含无限多个元素，只要它们仍然可以顺序列出，比如偶数集、整数集或有理数集。相比之下，0 到 1 之间的实数集是不可数的。这样的集合比自然数集要大，无法与其建立一一对应关系。

稠密性

设⟨, ⟩是一个度量空间。如果集合 ⊆ 在中是稠密的，则对于中的每个元素 ∈，都存在一个元素 ∈，使得 d(x, y) < ϵ 对于每个 >0 成立。非正式地说，这意味着对于之外的任何元素，我们都可以在中找到一个与其任意接近的元素。在 ℝ 中一个稠密子集的例子是有理数集 ℚ。为说明这一点，考虑一个实数的小数展开：

虽然序列中的每一个元素都是有理数，但序列本身收敛到一个实数。这表明，任何实数都可以被有理数任意逼近。

可分性

按定义，如果度量空间 X 存在一个可数集 Y ⊆ X，使得 Y 的闭包（X 中所有在 Y 中或与 Y 中点任意接近的点的集合）是 X，那么这个度量空间称为可分的。

直观上，如果一个空间是可分的，那么 X 的每个点都可以通过可数稠密子集 Y 的点任意逼近。这意味着在 Y 上证明的性质通常可以通过这种逼近扩展到整个空间 X。可分性经常是某些重要定理成立的必要条件。这一性质可以简化分析，并对整个空间产生更强的影响。

虽然将可数稠密子集直接应用于复杂的深度学习模型可能具有挑战性，但它们的存在简化了对各种技术的论证和分析，例如降维、核设计、逼近和数据表示。

同构

同构是指在两个结构之间保持结构特性的一种映射，它既是单射的，又可以通过逆映射进行还原。单射映射（或一对一映射）确保不同的元素被映射到不同的元素上。

满射映射确保目标集 G 中的每个元素至少由定义域集F中的一个元素映射到。

如果一个映射既是单射的（一对一的），又是满射的（覆盖的），那么它被分类为双射。这意味着定义域的每个元素都映射到值域中的一个元素，并且值域中的每个元素都是由定义域中的一个元素映射来的，从而在定义域和值域的所有元素之间建立了完美的一一对应关系。

同构虽然在深度学习算法的实现中并不直接可见，但在底层数学框架中起着至关重要的作用。它们确保了不同数学空间之间的基本结构关系的保留，这对于理解神经网络中数据变换如何影响固有信息至关重要。例如，神经网络中的线性变换旨在保持数据点之间的关系。同构在表示学习中尤为重要，表示学习的目标是捕捉有意义的模式，同时丢弃无关的细节。然而，像 ReLU 这样的非线性函数虽然对于学习复杂模式至关重要，但由于其不可逆性，可能导致一些信息的丢失。

保留性

保留性意味着运算的保留。在域的情况下，它保留了加法和标量乘法。具体来说：

设是从F到G 的一个映射。如果在域的上下文中遵守所有上述规则，则该映射是同构的。

两个度量空间之间的等距同构（isometry）是一个保持距离的函数。具体来说，如果 (,)和 (,)是两个度量空间，那么函数 :→被称为等距同构，当且仅当对于所有，′∈，满足以下条件：

这意味着在X中任意两点之间的距离与它们在Y中的像之间的距离是相同的，且依据各自的度量来衡量。

度量空间中的开集与闭集

开集和闭集是数学空间的基本构件，为发展更复杂的拓扑概念提供了必要的框架。例如，它们在定义收敛性和连续性时是至关重要的。

开集是指不包含其边界的集合，而闭集包含其所有的边界点。为了便于可视化和理解，我们将首先在更熟悉的度量空间框架内探讨开集和闭集。

让我们考察一个子集 A ⊆ X，以及一个元素 x ∈ A。

我们可以构造一个以 x为中心、半径小于ϵ的开球B。这个球B 包含所有以下元素：

本质上，B 包括 x 及其在半径 ϵ 内的邻居。直观上，这些 x 的邻居可能都位于 A 内，或者其中一些可能超出了 A。

开集与边界点

如果对于 A 中的每个元素 x，都存在一个足够小的半径 ϵ，使得以 x 为中心且半径为 ϵ 的开球 B 的所有元素都完全包含在 A 中，那么 A 被认为是开集。

A 的边界点是 X 中的一个点，使得以该点为中心的每个开球都包含 A 中的元素以及 A 的补集（即 X 中不在 A 内的点）中的元素。

边界点 x 正式定义如下：

其中 Aᶜ 是 A 的补集。A 的所有边界点的集合记作 δA。

开集不包含其任何边界点。

开区间与开圆

即，

闭集与闭包

闭集的定义很简单：它的补集是开集。

i.e.

从另一个角度看，闭集包含所有的边界点。

集合 A 的闭包是通过将 A 与其边界点结合起来形成的。在实数集 ℝ 中，有理数集 ℚ 的闭包是整个实数集 ℝ。

如果 A 的闭包与 A 本身相同，那么 A 就是一个闭集。

空集 ∅ 和整个集合 X 被认为既是开集又是闭集。

示例

考虑实数线上 ℝ 的开区间 = (3, 6)。

A 是一个开集。对于 A 中的任意 x，我们可以确定以 x 为中心的开球，使得这些开球中的所有元素都包含在 A 内。例如，我们可以选择 ε 为从 x 到 A 最近的边界点的一半距离。

让我们探讨一个更具挑战性的示例，考虑包含在 X 中的子集 A 和 C。A 和 C 是开集还是闭集？

元素「0」和大于「3」的元素不是 A 的边界点，因为它们本身不属于集合 X。元素「3」也不是 A 的边界点。以「3」为中心的任何开球都不包含既在外又在内的元素。

这个例子突显了一个关键点：确定一个集合是开集还是闭集需要考虑集合 A 的定义以及底层空间 X 的定义，两者共同决定了集合的边界点。在这种情况下，定义导致 A 的边界点集合为空，从而得出 A 既是闭集又是开集。因此，重要的是要注意，开集和闭集并不总是互斥的类别。事实上，一个既是开集又是闭集的集合被称为闭开集（clopen set）。

对于子集 C，元素 2 是一个边界点。C 的闭包等于 C 本身，这表明 C 是一个闭集。

连续函数

拓扑学中的许多概念可以使用开集或闭集来定义。考虑两个度量空间和以及映射函数 :→。非正式地说，如果对于中围绕 f(a) 的每个开球，在中都存在一个围绕a的对应开球，使得在f 映射下该开球的像包含在围绕f(a)的开球内，那么函数f在点 ∈处是连续的。

正式地说，函数 f 在点a 处是连续的，如果对于每个 ϵ>0，存在一个δ >0 使得

这意味着以a为中心、半径为 δ的开球的像包含在以 f(a)为中心、半径为ϵ的开球内，从而确保在 a 附近定义域的微小变化会导致 f(a)附近像的微小变化。

如果函数 f 在其整个定义域 A 上都是连续的，那么它在 A 中的每一点上都是连续的。然而，在下面的例子中，f 在点a处不是连续的。

序列连续性

如果对于任意收敛到x~的序列(x_n)，序列T(x_n)收敛到 T(x~)，则函数 T 在点 x~∈X 处是序列连续的。

在度量空间中，连续性和序列连续性是等价的。

紧致性

在处理包含无限维元素（如函数或无限序列）的空间时，有限性的概念可能会变得棘手。紧致性将「闭合且有界」的集合概念从欧几里得空间推广到这样的空间。（在欧几里得空间中，如果一个集合包含其所有极限点，则该集合是闭集的；如果它可以包含在有限半径的球体内，则它是有界的。）即使一个集合包含无限维元素，紧致性赋予它某种「有限性」属性。

紧致性在数学的许多领域中是一个关键概念，原因有几方面。首先，它通常通过将无限情境简化为有限情境，使得复杂问题更易处理。其次，它确保紧致集上的连续函数总是有最大值和最小值，这是极值定理中的一个关键思想。最后，紧致空间中的每个序列都拥有一个收敛的子序列。这一性质在分析中非常重要，因为它保证了在广泛的情境下极限的存在。

一个拓扑空间X被称为紧致的，如果X的每个开覆盖都有一个有限子覆盖。让我们定义开覆盖和有限子覆盖。

有限子覆盖是从初始开覆盖中选出的较小的开集集合，这些开集仍然覆盖整个集合。紧致性是一种拓扑性质，确保对于任何集合的开覆盖，总是存在一个有限子覆盖。换句话说，无论你如何尝试用开集覆盖一个紧致空间，你总是可以找到一个有限数量的开集来完成这项工作。回顾起来，问题可以通过使用有限数量的开集在局部进行分析，然后将结果汇总。

拓扑空间

拓扑空间是一种非常普遍的数学空间类型，它为定义收敛性、连续性和紧致性等概念提供了框架。它正式定义了集合内点周围的邻域概念，作为更高级数学理论的基础。它建立了基本但必要的结构，这些结构本身具有有限的实际用途。通常，需要额外的结构和改进来使空间适合实际应用。

与依赖于距离函数来定义接近性的度量空间不同，拓扑空间建立在开集的概念之上。这意味着拓扑空间不具有点与点之间的距离概念，提供的框架比度量空间更少结构性。相反，它们更关注邻近点的概念。

拓扑空间由两个主要组成部分构成：

一个点集 X：这可以是任何对象的集合，如数字、形状，甚至更抽象的实体。

一个拓扑 τ：这是点集的一个子集集合，称为满足某些性质的开集。

开集必须满足以下公理：

对于给定的集合 ={1,2,3,4}，X上的拓扑可以从最简单到最复杂，取决于作为开集包含的子集的数量。任何集合上最简单的拓扑是平凡拓扑。对于集合X，这种拓扑只包括最少量的子集：

任何集合上最复杂的拓扑是离散拓扑，其中X的每个可能的子集都被视为开集：

许多实际问题涉及的空间中只有某些类型的子集对于分析才是相关或有意义的。中间拓扑在过于简单（平凡拓扑）和过于细粒度（离散拓扑）之间找到平衡，使它们特别适合于在理论和应用数学中进行详细但可管理的分析。

给定一个拓扑空间 X 和 X 中的一个点 p，p 的一个邻域是 X 的一个子集 V，它包含一个开集 U，使得

每个开集都是其每个点的一个邻域。（注意 V 本身不需要是开集。）

在定义了邻域之后，拓扑空间中的收敛性、连续性和紧致性的定义如下：

拓扑同构

拓扑学关注邻域的概念。虽然度量空间包括距离的概念，但拓扑空间更加一般和抽象，因此不包含距离概念。在拓扑学中，茶杯和甜甜圈被认为是同胚的，意味着它们在拓扑上是等价的。这两种形状可以在不切割或粘合的情况下连续地变形为彼此。我们可以逐渐将茶杯变形，将其把手加宽，形成甜甜圈的环形。尽管这种变形改变了点之间的距离，但它保留了拓扑关注的基本邻近关系。然而，茶杯无法变形为碗，因为这需要打孔并破坏已建立的邻近关系。

拓扑同构，也称为同胚，是两个拓扑空间之间保持拓扑结构的连续函数。它是一个双射，意味着它既是一对一的（单射），又是覆盖的（满射），而且函数及其逆函数都是连续的。如果存在这样的函数，这两个空间被称为同胚或拓扑等价。

同胚的概念在拓扑学中是基础性的，因为它允许数学家根据空间的内在拓扑性质而非其具体几何形状来分类和研究空间。这种抽象有助于理解和解决数学和科学中各个领域的复杂问题。

开集基

在拓扑学中，开集对于理解拓扑空间的结构至关重要。然而，明确地定义所有开集可能是繁琐的。基的概念提供了一个解决方案。拓扑空间的基是一个具有特殊性质的较小的开集集合：拓扑中的每个开集都可以通过基中的集合的并集来形成。本质上，基充当了一组构建块，可以用来构造空间中的所有其他开集。拓扑的基是一个开集集合，可以用来生成空间中的所有其他开集。

示例：实数线 ℝ 上的标准拓扑

实数线 ℝ 上的标准拓扑是由实数线上所有开区间生成的拓扑。它是由所有开区间 (a, b) 生成的基，其中 a<b 且 ,∈ℝ。这意味着这个拓扑中的任何开集都可以通过（可能是无限多个）开区间的并集来形成。