量子计算与量子信息

量子噪声与量子操作

量子操作的数学形式体系是我们描述开放系统动力学的关键工具.
这个工具极为强大, 因为它可以同时应付各种物理场景.
它不仅可用于描述与环境弱耦合的近乎封闭的系统,
还可用于描述与其环境强耦合的系统, 以及突然打开接受测量的封闭系统.
量子操作在量子计算和量子信息应用中的另一个优点是特别适合描述离散态变化,
即初状态 ρ 和最终态 ρ' 之间的转换, 而无须明确参照时间的推移.
这种离散时间分析与物理学家传统上用于描述开放量子系统的工具
(例如: 主方程, 郎之万方程, 和随机微分方程) 有很大不同, 这些工具往往是连续时间的描述.

经典系统中的噪声可以用随机过程理论来描述. 通常, 在分析多阶段过程时, 使用马尔可夫过程是一个很好的假设. 对于单阶段过程, 输出概率 \(\overrightarrow{q}\) 通过等式与输入概率 \(\overrightarrow{p}\) 联系起来
- \[\overrightarrow{q} = E \overrightarrow{p}\]
- 其中 \(E\) 是转移概率的矩阵, 我们把它称为演化矩阵. 因此, 系统的末态与初态线性地联系起来. 这个线性的特性在量子噪声描述中也有, 其中用密度矩阵代替了概率分布.
演化矩阵 \(E\) 必须具备哪些属性呢? 我们要求如果 \(\overrightarrow{p}\) 是有效的概率分布, 那么 \(E \overrightarrow{p}\) 也必须是有效的概率分布. 满足这个条件结果等价于对 \(E\) 的两个条件.
- 首先, \(E\) 的所有条目必须是非负的, 这被称为正定性要求. 否则就有可能在 \(E \overrightarrow{p}\) 中出现负概率.
- 其次, \(E\) 的所有列必须总和为 \(1\), 这被称为完备性要求. 假设这不成立. 想象一下, 假如第一列之和不为 \(1\). 让 \(\overrightarrow{p}\) 在第一个条目为 \(1\), 而在其他地方都为零, 我们看到 \(E \overrightarrow{p}\) 在此情况下不是有效的概率分布.

量子操作

设 \(\mid e_k \rangle\) 是环境 (有限维) 状态空间的标准正交基, 令 \(ρ_{env}\) 是环境的初始状态. 不失一般性, 可以假设环境以纯态开始, 因为如果它以混合态开始, 我们总可以引入额外的系统来纯化. 虽然这个额外的系统是”虚构的”, 但它对主系统所经历的动力学没有影响, 因此可以用作计算的中间步骤. 于是
- \[\begin{align} ε(ρ) & = \sum_{k} \langle e_k \mid U [ρ \otimes \mid e_0 \rangle \langle e_0 \mid] U^{\dagger} \mid e_k \rangle \\ & = \sum_{k} E_k ρ E_k^{\dagger} \\ \end{align}\]
- 其中 \(E_k ≡ \langle e_k \mid U \mid e_0 \rangle\) 是作用于主系统态空间中的一个算子. 上式被称为算子和表示 \(ε\). 算子 \(\{ E_k \}\) 被称为量子操作 \(ε\) 的操作元.

注: 留意 \(E_k\) 维度

操作元满足称为完备性关系的重要约束, 类似于经典噪声的描述中演化矩阵的完备性关系. 在经典案例中, 完备性关系源于概率分布被归一化的要求. 在量子情形中, 完备性关系源于 \(ε(ρ)\) 的迹等于 \(1\) 这个类似的限制,
- \[\begin{align} 1 & = tr(ε(ρ)) \\ & = tr(\sum_{k} E_k ρ E_k^{\dagger}) \\ & = tr(\sum_{k} E_k^{\dagger} E_k ρ) \\ \end{align}\]
- 既然这个关系对于所有 \(ρ\) 都成立, 于是必然有
- \[\sum_{k} E_k^{\dagger} E_k = I\]
- 保迹的量子操作满足这个方程. 也存在非保迹的量子操作, 对它们有 \(\sum_{k} E_k^{\dagger} E_k ≤ I\), 但在其描述的过程中发生了什么额外信息是由测量获得的.
可以给算子和表示一个很好的解释. 想象一下, 在施加酉变换 \(U\) 之后, 在基矢 \(e_k\) 上执行对环境的测量. 应用隐式测量原理, 我们发现这种测量只影响环境的状态, 而不会改变主系统的状态. 假设结果 \(k\) 出现, 那就让 \(ρ_k\) 成为主系统的状态, 于是
- \[\begin{align} ρ_k & \propto tr_E( \mid e_k \rangle \langle e_k \mid U (ρ \otimes \mid e_0 \rangle \langle e_0 \mid) U^{\dagger} \mid e_k \rangle \langle e_k \mid ) \\ & = \langle e_k \mid U (ρ \otimes \mid e_0 \rangle \langle e_0 \mid) U^{\dagger} \mid e_k \rangle \\ & = E_k ρ E_k^{\dagger} \\ \end{align}\]
- 归一化 \(ρ_k\):
- \[ρ_k = \frac{E_k ρ E_k^{\dagger}}{tr(E_k ρ E_k^{\dagger})}\]
- 我们发现结果 \(k\) 出现的概率为
- \[\begin{align} p(k) & = tr( \mid e_k \rangle \langle e_k \mid U (ρ \otimes \mid e_0 \rangle \langle e_0 \mid) U^{\dagger} \mid e_k \rangle \langle e_k \mid ) \\ & = tr(E_k ρ E_k^{\dagger}) \\ \end{align}\]
- 因此
- \[ε(ρ) = \sum_{k} p(k) ρ_k = \sum_{k} E_k ρ E_k^{\dagger}\]
- 这给我们提供了一个美妙的物理解释, 用于操作元 \(\{ E_k \}\) 的量子操作. 量子操作的作用相当于选取态 \(ρ\), 然后以概率 \(tr(E_k ρ E_k^{\dagger})\) 用 \(E_k ρ E_k^{\dagger} / tr(E_k ρ E_k^{\dagger})\) 随机地替换它.
- 在此意义上, 这与经典信息论中噪声通信信道的概念很相似; 在这种情况下, 我们有时会将描述量子噪声过程的某些量子操作看成有噪声的量子信道.
给出一个开放量子系统的表示, 我们如何能确定其动力学的算子和表示呢? 我们已经发现了一种答案: 给出系统-环境变换操作 \(U\), 以及一组环境的基 \(\mid e_k \rangle\), 操作元为
- \[E_k ≡ \langle e_k \mid U \mid e_0 \rangle\]
- 通过允许在酉相互作用之后对组合系统环境执行测量, 有可能进一步扩展该结果, 进而可以获取关于量子状态的信息. 事实证明, 这种物理上的可能性自然地与非保迹的量子操作相关联, 即映射 \(ε(ρ) = \sum_{k} E_k ρ E_k^{\dagger}\), 其中 \(\sum_{k} E_k^{\dagger} E_k ≤ I\).
假设主系统初始时处于态 \(ρ\). 为方便起见, 我们用字母 \(Q\) 来标记主系统. 与之相邻的是环境系统 \(E\). 我们假设 \(Q\) 和 \(E\) 最初是相互独立的系统, 且 \(E\) 以某标准态 \(ρ\) 开始. 系统的联合态因而最初为
- \[ρ^{QE} = ρ \otimes σ\]
- 我们假设系统间按照某些酉相互作用 \(U\) 互相影响. 在酉相互作用之后, 在联合系统上进行投影测量, 由投影算子 \(P_m\) 描述.
- 不进行测量的情况对应于仅存在单个测量结果的特殊情况, \(m = 0\), 它对应于投影算子 \(P_0 ≡ I\).

我们的目标是确定作为初态 \(ρ\) 的函数的 \(Q\) 的末态. 当测量结果 \(m\) 出现时, \(QE\) 的末态写为
- \[\frac{P_m U (ρ \otimes σ) U^{\dagger} P_m} {tr(P_m U (ρ \otimes σ) U^{\dagger} P_m)}\]
- 对 \(E\) 取迹我们发现单独 \(Q\) 的末态为
- \[\frac{tr_E (P_m U (ρ \otimes σ) U^{\dagger} P_m)} {tr(P_m U (ρ \otimes σ) U^{\dagger} P_m)}\]
- 这个末态的表示包含了环境的初态 \(σ\), 相互作用 \(U\) 和测量算子 \(P_m\). 定义一个映射
- \[ε_m(ρ) ≡ tr_E (P_m U (ρ \otimes σ) U^{\dagger} P_m)\]
- 因此 \(Q\) 自身的末态为 \(ε_m(ρ) / tr(ε_m(ρ))\). 注意 \(tr(ε_m(ρ))\) 是测量结果 \(m\) 发生的概率. 令 \(σ = \sum_{j} q_j \mid j \rangle \langle j \mid\) 为对 \(σ\) 系综展开. 引入系统 \(E\) 的正交基 \(\mid e_k \rangle\). 注意到
- \[\begin{align} ε_m(ρ) & = \sum_{jk} q_j tr_E ( \mid e_k \rangle \langle e_k \mid P_m U (ρ \otimes \mid j \rangle \langle j \mid) U^{\dagger} P_m \mid e_k \rangle \langle e_k \mid ) \\ & = \sum_{jk} E_{jk} ρ E_{jk}^{\dagger} \\ \end{align}\]
- 其中 \(E_{jk} ≡ \sqrt{q_j} \langle e_k \mid P_m U \mid j \rangle\)
- 如果 \(E\) 的初态 \(σ\) 是已知的, 且 \(Q\) 与 \(E\) 之间的动力学也是已知的, 那么它还给出了计算算子和表示 \(ε\) 中出现的算子的一个具体的方法. 量子操作 \(ε_m\) 可以被想象为某种测量过程.

我们要以如下的方式继续推进.
首先, 我们将忘记我们所学到的关于量子操作的一切,
基于一组公理从定义量子操作开始. 我们将从物理角度证明这些公理.
完成之后, 我们将证明当且仅当映射 ε 具有算子和表示时满足这些公理,
从而给抽象的公理化形式和我们之前的讨论之间提供所缺失的联系.

我们定义一个量子操作 \(ε\), 它从输入空间 \(Q_1\) 的密度算子集合映射到输出空间 \(Q_2\), 同时具有如下三个公理化的特性:
A1: 首先, \(tr(ε(ρ))\) 是当 \(ρ\) 为初态时, \(ε\) 代表的过程所发生的概率. 因此, 对任意 \(ρ\) 有 \(0 ≤ tr(ε(ρ)) ≤ 1\).
A2: 其次, \(ε\) 是一个作用在密度矩阵集合上凸的线性映射, 也就是对于概率 \(\{ p_i \}\),
- \[ε(\sum_{i} p_i ρ_i) = \sum_{i} p_i ε(ρ_i)\]
A3: 第三, \(ε\) 是一个完全正定的映射. 也就是如果 \(ε\) 把系统 \(Q_1\) 的密度算子映射到系统 \(Q_2\) 的密度算子, 那么对任何正算子 \(A\), \(ε(A)\) 都必须是正的. 不仅如此, 如果我们引入一个有任意维度的额外系统 \(R\), 对作用于复合系统 \(R Q_1\) 的任意正算子 \(A\), \((\mathcal{I} \otimes ε) (A)\) 都是正的, \(\mathcal{I}\) 代表系统 \(R\) 中的单位映射, 上述论断必然为真.
定理映射 \(ε\) 满足公理 A1, A2 和 A3, 当且仅当
- \[ε(ρ) = \sum_{i} E_i ρ E_i^{\dagger}\]
- 对于某算子集合 \(\{ E_i \}\), 它们把输入希尔伯特空间映射到输出的希尔伯特空间, 且 \(\sum_{i} E_i^{\dagger} E_i ≤ I\).

两组操作元何时产生相同的量子操作? 弄懂这个问题很重要, 至少有两个原因.
首先, 从物理的角度来看, 理解算子和表示中的自由性,
可使我们更深入地了解不同物理过程如何产生相同的系统动力学.
其次, 理解算子和表示的自由性对于理解量子纠错至关重要.

定理 (算子和表示的酉自由度) 假设 \(\{ E_1, ..., E_m \}\) 与 \(\{ F_1, ..., F_n \}\) 分别是量子操作 \(ε\) 与 \(\mathcal{F}\) 的操作元. 通过对更短的操作元加上零操作元, 我们可以确保 \(m = n\). 当且仅当它们存在复数 \(u_{ij}\) 使得 \(E_i = \sum_{j} u_{ij} F_j\), 且 \(u_{ij}\) 是一个 \(m\) 乘以 \(m\) 的酉矩阵时, 有 \(ε = \mathcal{F}\).

上述定理可用于回答另一个有趣的问题:
要能用于模拟一个给定的量子操作, 环境所需最大的尺度是多少?

定理所有用于希尔伯特空间维度 \(d\) 的量子操作都可以通过一个含有 \(d^2\) 个元素的算子和表示生成,
- \[ε(ρ) = \sum_{k = 1}^{M} E_k ρ E_k^{\dagger}\]
- 其中 \(1 ≤ M ≤ d^2\).

量子操作的应用

量子操作形式体系的主要用途之一是用来描述测量的效果.
量子操作可以被用于描述通过对量子系统的一次测量得到某特定结果的概率,
以及被测量影响后系统状态的改变.

与测量有关最简单的操作是求迹映射 \(ρ \to tr(ρ)\), 用如下的方式我们可以证明它确实是一个量子操作, 令 \(H_Q\) 是希尔伯特空间中的任意输入, 由一组正交基 \(\mid 1 \rangle ... \mid d \rangle\) 张开, 然后令 \(H'_Q\) 为一维的输出空间, 由 \(\mid 0 \rangle\) 张开. 定义
- \[ε(ρ) ≡ \sum_{i = 1}^{d} \mid 0 \rangle \langle i \mid ρ \mid i \rangle \langle 0 \mid\]
- 因而有 \(ε\) 是一个量子操作. 注意到 \(ε(ρ) = tr(ρ) \mid 0 \rangle \langle 0 \mid\), 因而加上不重要的乘数 \(\mid 0 \rangle \langle 0 \mid\), 这个量子操作与求迹函数等价.
一个更为有用的结果是观察到偏迹是个量子操作. 假设我们有一个复合系统 \(QR\), 并想对系统 \(R\) 取迹. 令 \(\mid j \rangle\) 是系统 \(R\) 的一个基. 定义一个线性算子 \(E_i : H_{QR} \to H_Q\) 为
- \[E_i (\sum_{j} λ_j \mid q_j \rangle \mid j \rangle) ≡ λ_i \mid q_i \rangle\]
- 其中 \(λ_j\) 是复数, 而 \(\mid q_j \rangle\) 是系统 \(Q\) 的任意态. 定义 \(ε\) 为一个量子操作, 操作元为 \(\{ E_i \}\), 也就是
- \[ε(ρ) ≡ \sum_{i} E_i ρ E_i^{\dagger}\]
- 这是一个从系统 \(QR\) 到系统 \(Q\) 的量子操作. 注意到
- \[ε(ρ \otimes \mid j \rangle \langle j' \mid) = ρ δ_{j, j'} = tr_R (ρ \otimes \mid j \rangle \langle j' \mid)\]
- 其中 \(ρ\) 是系统 \(Q\) 上面的任意厄米算子, 而 \(\mid j \rangle\) 与 \(\mid j' \rangle\) 是系统 \(R\) 的正交基成员. 基于 \(ε\) 与 \(tr_R\) 的线性, 可得 \(ε = tr_R\).

相位阻尼是一种独特的量子力学噪声过程, 描述了量子信息损失而没有能量损失.
比如, 物理上它描述了当光子通过波导随机散射时会发生什么,
或者在与远处电荷相互作用时原子中的电子状态如何被扰动.
量子系统的能量本征态不随时间变化, 而是积累与特征值成比例的相位.
当一个系统演化的时间并不被准确地知道时,
关于这个量子相位的部分信息 -- 能量本征态之间的相对相位 -- 就会丢失.

历史上, 相位阻尼是一个几乎总被想象为物理上随机相位反冲或散射过程的结果.
直到在发展量子纠错时, 它与相位翻转信道的联系被发现之后, 才予以否定.
因为当时认为相位噪声是连续的, 而无法被离散过程所描述!
实际上, 单量子比特错误总可以被想象为来自于一个物理过程,
其中要么量子比特上以概率 α 没事发生,
要么量子比特以 1 - α 的概率被泡利 Z 操作翻转.
尽管这也许不是真正发生的微观物理过程,
但以在单量子比特上离散的时间间隔发生的变换为出发点,
与底层的随机过程比较, 它们毫无区别.

相位阻尼是量子计算与量子信息研究中最微妙与最重要的过程.
它一直是被大量研究和思考的主题,
特别是关于为什么我们周围的世界看起来如此经典,
叠加态不是我们日常经验的一部分!
也许是相位阻尼导致日常不存在叠加态?

Lindblad 主方程
- 主方程
为了理解过程层析, 我们首先要理解另一个名为量子态层析的步骤. 态层析是一个用于确定未知量子态的实验步骤. 假设我们有一个单量子比特未知态 \(ρ\). 我们如何才能实验确定 \(ρ\) 的态是什么?
- 如果我们只有 \(ρ\) 的一份拷贝, 那么是无法刻画 \(ρ\) 的. 基本的问题在于, 并没有一个量子测量能够确定地区分两个不正交的量子态, 比如 \(\mid 0 \rangle\) 和 \((\mid 0 \rangle + \mid 1 \rangle) / √2\).
- 但是, 如果我们有 \(ρ\) 的大量拷贝, 那就可以估计出 \(ρ\). 比如, 如果 \(ρ\) 是某个实验产生的量子态, 那么我们简单地重复实验很多次, 就能做出态 \(ρ\) 的很多拷贝.
- 假设我们有一个单量子比特矩阵 \(ρ\) 的很多拷贝, 集合 \(I / √2\), \(X / √2\), \(Y / √2\), \(Z / √2\) 构成了一组相对于希尔伯特-施密特内积来说正交的矩阵, 因而 \(ρ\) 可被展开为
- \[ρ = \frac{tr(ρ)I + tr(X_ρ)X + tr(Y_ρ)Y + tr(Z_ρ)Z}{2}\]
现在我们知道了如何做量子态层析, 我们如何能用它来做量子过程层析呢? 实验步骤可以被概述如下. 假设系统的态空间有 \(d\) 维; 比如说对一个单量子比特来说 \(d = 2\). 我们选择 \(d^2\) 个纯量子态 \(\mid ψ_1 \rangle\), …, \(\mid ψ_{d^2} \rangle\), 使得相应的密度矩阵 \(\mid ψ_1 \rangle \langle ψ_1 \mid\), …, \(\mid ψ_{d^2} \rangle \langle ψ_{d^2} \mid\) 形成了态矩阵的一组基集合. 下面我们更详细地解释如何选取这组集合.
- 对每个态 \(\mid ψ_j \rangle\) 我们都把系统准备到那个态上面, 然后让它经历我们希望刻画的过程. 在过程运行结束之后, 我们使用量子态层析来确定通过过程后的结果 \(ε(\mid ψ_j \rangle \langle ψ_j \mid)\).
- 从一个纯粹主义者的观点来看, 我们已经完成了, 因为原理上量子操作 \(ε\) 现在由 \(ε\) 对所有态的线性扩展所确定.

在准备完成之后, 与用作准备该系统的自由度相互作用的量子系统,
通常会遵循量子操作形式体系无法充分描述的动力学.
这是一个重要的结论, 因为它表明在物理上合理的情况下,
量子操作形式体系可能无法充分描述量子系统中发生的过程.

本章小结
- 算子和表示: 一个开放量子系统的行为可以被建模为 \(ε(ρ) = \sum_{k} E_k ρ E_k^{\dagger}\), 其中 \(E_k\) 是操作元, 如果量子操作是保迹的, 那么满足 \(\sum_{k} E_k^{\dagger} E_k = I\).
- 量子操作的环境模型: 一个保迹的量子操作总能被看作是通过系统与初始时不关联的环境的酉相互作用产生, 反过来也一样. 非保迹量子操作也可能类似地处理, 除了一个额外的施加在系统与环境的复合体上的投影操作, 不同的结果对应于不同的非保迹量子操作.
- 量子过程层析: 一个作用于 \(d\) 维量子系统的量子操作, 可以通过测量由 \(d^2\) 个纯态输入得到的输出密度矩阵而被实验完全地确定.
- 重要单量子比特量子操作的操作元:
- 去极化信道: \(\sqrt{1 - \frac{3p}{4}} \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}\), \(\sqrt{\frac{p}{4}} \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}\), \(\sqrt{\frac{p}{4}} \begin{bmatrix} 0 & -i \\ i & 0 \end{bmatrix}\), \(\sqrt{\frac{p}{4}} \begin{bmatrix} 1 & 0 \\ 0 & -1 \end{bmatrix}\)
- 振幅阻尼: \(\begin{bmatrix} 1 & 0 \\ 0 & \sqrt{1 - γ} \end{bmatrix}\), \(\begin{bmatrix} 0 & \sqrt{γ} \\ 0 & 0 \end{bmatrix}\)
- 相位阻尼: \(\begin{bmatrix} 1 & 0 \\ 0 & \sqrt{1 - γ} \end{bmatrix}\), \(\begin{bmatrix} 0 & 0 \\ 0 & \sqrt{γ} \end{bmatrix}\)
- 相位翻转: \(\sqrt{p} \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}\), \(\sqrt{1 - p} \begin{bmatrix} 1 & 0 \\ 0 & -1 \end{bmatrix}\)
- 比特翻转: \(\sqrt{p} \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}\), \(\sqrt{1 - p} \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}\)
- 比特-相位翻转: \(\sqrt{p} \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}\), \(\sqrt{1 - p} \begin{bmatrix} 0 & -i \\ i & 0 \end{bmatrix}\)

"退相干"这个词出现了一个令人遗憾的术语混淆.
从历史上看, 它一直被用来指代相位阻尼过程,
研究人员认识到相位阻尼在从量子到经典物理的过渡中具有独特的作用;
对于某些环境耦合, 它发生在比任何振幅阻尼过程快得多的时间尺度上,
因此在确定量子相干性的损失方面可能更为重要.
这些研究的主要观点是由于环境相互作用而展现的经典性. 然而, 总的来说,
量子计算中和量子信息中使用退相干是指量子处理中的任何噪声过程.
在本书中, 我们喜欢更通用的术语"量子噪声", 并倾向于使用它,
尽管在上下文中合适的时候退相干也会偶尔出现.

量子信息的距离度量

对于两个定义在同一个标号集上的两个概率分布 \(\{ p_x \}\) 和 \(\{ q_x \}\), 当我们说它们很接近的时候, 到底意味着什么?
- 为这个问题给出一个独一无二正确的答案是不容易的, 因此, 我们将尝试给出两个不同的回答, 实际上这两种回答中的任何一种都在量子信息和量子计算圈子中被广泛应用.
第一个度量是迹距离, 其定义如下:
- \[D(p_x, q_x) ≡ \frac{1}{2} \sum_{x} \mid p_x - q_x \mid\]
- 这个量有时候也被称作 \(L_1\) 距离. 我们倾向迹距离这个称呼, 因为它预见了后来出现的量子力学对应, 而这个对应就是用迹函数来定义的.
- 实际上, 迹距离是一个关于概率分布的真正度量 (一个真正的度量 \(D(x, y)\) 需要满足对称性, \(D(x, y) = D(y, x)\), 以及满足三角不等式, \(D(x, z) ≤ D(x, y) + D(y, z)\)). 因此, 这个名称中距离的提法恰如其分.
第二种概率分布间的距离度量是保真度. 概率分布 \(\{ p_x \}\) 和 \(\{ q_x \}\) 之间的保真度定义为
- \[F(p_x, q_x) ≡ \sum_{x} \sqrt{p_x q_x}\]
- 相比迹距离, 保真度是一个非常不同的度量概率分布间距离的方法.
- 首先, 保真度并不是一个真正的度量, 虽然后面我们会看到, 可以从保真度出发定义一个真正的度量.
- 为了看出这一点, 注意当 \(\{ p_x \}\) 和 \(\{ q_x \}\) 完全相同的时候, \(F(p_x, q_x) = \sum_{x} p_x = 1\).
- 保真度实际上就是单位球面上的两个元素为 \(\sqrt{p_x}\) 和 \(\sqrt{q_x}\) 的向量间的内积.

迹距离和保真度是比较两个固定概率分布的静态度量. 另一个距离的度量是一个动态度量, 它刻画了某个具体的物理过程中, 量子信息被保护得好坏. 假设一个随机变量 \(X\) 被通过一个有噪声信道传送出去, 以另一个随机变量 \(Y\) 的形式输出, 形成一个马尔可夫过程 \(X \to Y\).
- 为了方便讨论, 我们假设 \(X\) 和 \(Y\) 有相同的取值范围, 取值记作 \(x\). 那么, \(X\) 和 \(Y\) 分布不同的总概率, 即 \(p(X ≠ Y)\), 将是一个显而易见的可以衡量整个过程保护信息好坏程度的量.
让人惊奇的是, 动态距离度量也可以理解成静态迹距离的一个特例. 想象我们被赋予一个随机变量 \(X\), 然后我们制备它的一个拷贝, 产生一个新的随机变量 \(\widetilde{X} = X\). 将 \(X\) 通过一个有噪声信道传递出去, 产生输出随机变量 \(Y\). 那么开始的完美关联对 \((\widetilde{X}, X)\), 距离结尾的关联对 \((\widetilde{X}, Y)\) 多远呢?
- 我们可以用迹距离来衡量接近的程度, 通过简单的计算可以得到信道发生错误的概率, 就是概率分布 \((\widetilde{X}, X)\) 和 \((\widetilde{X}, Y)\) 之间的迹距离.
- 这是一个重要的构造, 因为在量子情形我们也有类似的对应. 这种对应是必不可少的, 因为概率分布 \(p(X ≠ Y)\) 并没有一个直接的量子对应, 其根源是, 在量子力学中并没有经典情形这种于不同时间点出现的两个随机变量 \(X\) 和 \(Y\) 的联合分布的概念.
- 于是, 为了定义量子距离的动态度量, 我们采用一种类似的构造. 注意在这里, 量子信道的动态行为所保护的重要对象, 不再是经典关联, 而是量子纠缠.

两个量子态有多接近

我们首先定义量子态 \(ρ\) 和 \(σ\) 之间的迹距离为
- \[D(ρ, σ) ≡ \frac{1}{2} tr \mid ρ - σ \mid\]
- 这里跟平常一样, 我们定义 \(\mid A \mid = \sqrt{A^{\dagger} A}\) 是算子 \(A^{\dagger} A\) 的正平方根. 注意, 当 \(ρ\) 和 \(σ\) 可交换时, \(ρ\) 和 \(σ\) 之间的量子迹距离正好就是它们特征值之间的经典迹距离, 因此我们的量子迹距离确实可以看作经典迹距离的推广.
- 具体来说, 如果 \(ρ\) 和 \(σ\) 可交换, 那么它们就可以被同时对角化, 即有
- \(ρ = \sum_{i} r_i \mid i \rangle \langle i \mid\); \(σ = \sum_{i} s_i \mid i \rangle \langle i \mid\)
- 对某组正交基 \(\mid i \rangle\) 成立. 因此
- \[\begin{align} D(ρ, σ) & = \frac{1}{2} tr \mid \sum_{i} (r_i - s_i) \mid i \rangle \langle i \mid \mid \\ & = D(r_i, s_i) \\ \end{align}\]

两个单量子比特之间的迹距离, 就是它们在布洛赫球上欧几里得距离的一半!
量子比特情形的这种直观几何解释, 经常被用来帮助理解迹距离的一般特性.
通过布洛赫球上的简单例子, 我们可以猜测或否决迹距离的一些可能特性,
又或者初步确认一些候选特性的合理性.
例如, 布洛赫球上的旋转不改变欧几里得距离,
因此, 一般来说酉变换应该不会改变迹距离.

为了真正理解迹距离, 一个很好的起始点是对经典迹距离的刻画推广到量子情形:
- \[D(ρ, σ) = \max_{P} tr(P(ρ - σ))\]
- 这里, 最大值是取值在所有可能的投影算子 \(P\), 或者所有满足 \(P ≤ I\) 的正定算子上, 两者都给出相同的形式.
- 这个表达形式为迹距离赋予了一个非常吸引人的解释. 如前所述, POVM 元素是满足 \(P ≤ I\) 的正定算子. 因此, 迹距离实际上是在取遍所有可能的 POVM 元素 \(P\) 的情况下, POVM 作用在 \(ρ\) 和 \(σ\) 上输出元素 \(P\) 对应结果的概率的最大可能差值.
定理假设 \(\{ E_m \}\) 是一个 POVM, \(p_m ≡ tr(ρ E_m)\) 和 \(q_m ≡ tr(σ E_m)\) 分别是测量 \(ρ\) 和 \(σ\) 得到标号为 \(m\) 的结果的概率. 则
- \[D(ρ, σ) = max_{ \{ E_m \} } D(p_m, q_m)\]
- 其中最大值取值在所有可能的 POVM \(\{ E_m \}\) 上.

因此, 如果两个密度算子之间的迹距离很小,
那么对这两个量子态的任意量子测量得到的概率分布之间的经典迹距离也很小.
于是, 这可以看成是量子态之间迹距离的第二个解释,
即它是这两个量子态在所有测量作用下能得到的概率分布之间经典迹距离的最大可达上界.

定理 (保迹量子操作是收缩性的) 假设 \(ε\) 是一个保迹量子操作, 而 \(ρ\) 和 \(σ\) 是两个量子态, 那么
- \[D(ε(ρ), ε(σ)) ≤ D(ρ, σ)\]

我们可以用下面的类比来理解这个结果.
如果将两个量子态的部分掩盖起来,
那么剩下部分之间的距离肯定不会增加.

定理 (迹距离的强凸性) 假设 \(\{ p_i \}\) 和 \(\{ q_i \}\) 是同一个指标集上的两个概率分布, \(ρ_i\) 和 \(σ_i\) 是同一个指标集标识的密度算子, 那么有
- \[D(\sum_{i} p_i ρ_i, \sum_{i} q_i σ_i) ≤ D(p_i, q_i) + \sum_{i} p_i D(ρ_i, σ_i)\]
- 其中 \(D(p_i, q_i)\) 是概率分布 \(\{ p_i \}\) 和 \(\{ q_i \}\) 之间的迹距离.
- 这个结果可用来证明跟迹距离凸性相关的结果, 因此我们称之为迹距离的强凸性.
- 作为上述结果的一个特殊情形, 迹距离相对于输入有联合凸性, 即
- \[D(\sum_{i} p_i ρ_i, \sum_{i} p_i σ_i) ≤ \sum_{i} p_i D(ρ_i, σ_i)\]

我们要介绍的第二种距离度量是保真度. 虽然保真度不是密度算子上的真正度量, 但我们会看到它可以诱导出一个真正的度量. 我们回顾一下保真度的定义和它的基本特性. 量子态 \(ρ\) 和 \(σ\) 之间的保真度定义为
- \[F(ρ, σ) ≡ tr \sqrt{ρ^{1/2} σ ρ^{1/2}}\]
- 为什么这是 \(ρ\) 和 \(σ\) 之间的一个有用距离度量, 其实并不显然, 实际上这个量看起来甚至对输入不对称. 但是, 我们会看到相对输入保真度确实对称, 而且也满足距离度量所共有的很多特性.
有两个我们可以为保真度给出精确形式的特殊情况. 第一个是当 \(ρ\) 和 \(σ\) 交换时, 也就是, 当它们可以在某一组基 \(\mid i \rangle\) 下被同时对角化时,
- \(ρ = \sum_{i} r_i \mid i \rangle \langle i \mid\); \(σ = \sum_{i} s_i \mid i \rangle \langle i \mid\)
- 当 \(ρ\) 和 \(σ\) 交换时, 量子保真度 \(F(ρ, σ)\) 退化为它们的特征值分布 \(r_i\) 和 \(s_i\) 之间的经典保真度 \(F(r_i, s_i)\).
第二个例子是当计算一个纯态 \(\mid ψ \rangle\) 和一个混态 \(ρ\) 之间的保真度时. 我们有
- \[\begin{align} F(\mid ψ \rangle, ρ) & = tr \sqrt{ \langle ψ \mid ρ \mid ψ \rangle \mid ψ \rangle \langle ψ \mid} \\ & = \sqrt{\langle ψ \mid ρ \mid ψ \rangle} \\ \end{align}\]
- 于是, 保真度正好是 \(\mid ψ \rangle\) 和 \(ρ\) 之间交叠的平方根, 这是一个我们将会经常用到的重要结果.

对于单量子比特的情形, 我们可以精确估计两个量子态之间的迹距离.
这构成了这种情形下迹距离的一个几何解释,
即布洛赫球上对应点之间欧几里得距离的一半.
不过, 人们还没有找到类似的, 关于两个单量子比特之间保真度的几何解释.
但是, 保真度确实也满足迹距离所具有的许多性质. 例如, 它在酉变换下保持不变.

定理 (Uhlmann 定理) 假设 \(ρ\) 和 \(σ\) 是量子系统 \(Q\) 上的两个量子态, 而 \(R\) 是 \(Q\) 的一个拷贝. 那么
- \[F(ρ, σ) = \max_{\mid ψ \rangle, \mid φ \rangle} \mid \langle ψ \mid φ \rangle \mid\]
- 其中最大值取值于 \(ρ\) 和 \(σ\) 在 \(RQ\) 上所有可能的纯化 \(\mid ψ \rangle\) 和 \(\mid φ \rangle\) 上.
引理若 \(A\) 是一个算子, \(U\) 是酉矩阵, 那么
- \[\mid tr(AU) \mid ≤ tr \mid A \mid\]
- 并且, 当 \(U = V^{\dagger}\) 时等式成立, 其中 \(A = \mid A \mid V\) 是 \(A\) 的极分解.
总结一下, 保真度对于输入是对称的, 且满足 \(0 ≤ F(ρ, σ) ≤ 1\). 其中当且仅当 \(ρ\) 和 \(σ\) 的支集正交时, 左边的等式成立; 当且仅当 \(ρ = σ\) 时, 右边的等式成立.

我们已经看到, 当考虑测量诱导的概率分布时, 量子迹距离可以和经典迹距离建立紧密联系. 类似地, 我们也有
- \[F(ρ, σ) = \min_{\{ E_m \}} F(p_m, q_m)\]
- 其中最小值取值于所有可能的 POVM \(\{ E_m \}\), \(p_m ≡ tr(ρ E_m)\) 和 \(q_m ≡ tr(σ E_m)\) 分别是测量 \(ρ\) 和 \(σ\) 时对应的概率分布.
定理 (保真度的单调性) 假设 \(ε\) 是一个保迹量子操作, 而 \(ρ\) 和 \(σ\) 是密度算子. 则有
- \[F(ε(ρ), ε(σ)) ≥ F(ρ, σ)\]
定理 (保真度的强凹性) 假设 \(p_i\) 和 \(q_i\) 是在相同指标集上取值的概率分布, \(ρ_i\) 和 \(σ_i\) 是标号取值范围相同的密度算子, 则有
- \[F(\sum_{i} p_i ρ_i, \sum_{i} q_i σ_i) ≥ \sum_{i} \sqrt{p_i q_i} F(ρ_i, σ_i)\]
- 很自然地, 这个结果可以用来证明与保真度凹性相关的结果, 因此我们称之为保真度的强凹性. 其实它和迹距离的强凸性并不完全一致, 但基于相似性我们依然采用类似的命名.
\[1 - F(ρ, σ) ≤ D(ρ, σ) ≤ \sqrt{1 - F(ρ, σ)^2}\]
- 这意味着, 从定性的意义来说, 迹距离和保真度在刻画两个量子态的接近程度这个问题上, 是等价的.
- 实际上, 在许多问题上, 当量化距离时, 到底是选择迹距离还是保真度其实是无关紧要的, 因为从关于其中一个的结论, 可以推出关于另一个的等价结论.

量子信道保护信息的效果怎么样?

然而, 我们提出的关于信息保护的度量原型, 也就是保真度 \(F(\mid ψ \rangle, ε(\mid ψ \rangle \langle ψ \mid))\), 有一些需要修正的缺点. 在一个真实的量子存储或量子通信信道中, 我们并不知道系统的初态 \(\mid ψ \rangle\) 是什么. 但是, 我们可以通过对所有可能的初态做最优化, 来量化系统最坏的行为:
- \[F_{min}(ε) ≡ \min_{\mid ψ \rangle} F(\mid ψ \rangle, ε(\mid ψ \rangle \langle ψ \mid))\]
- 读者可能想问, 我们为什么在 \(F_{min}\) 的定义中只对所有的纯态取最小值. 毕竟, 我们关心的量子系统的初态可能是个混态 \(ρ\).
- 例如, 量子存储器可能跟量子计算机的其他部分纠缠起来了, 因此存储器的初态将会是一个混态. 幸运的是, 使用保真度的联合凹性, 不难证明允许混态并不能改变 \(F_{min}\) 的定义.
当然, 我们感兴趣的, 不光是当信息通过量子通信信道时保护量子信息, 也包括作为计算的动态过程本身. 例如, 作为一个量子计算过程的一部分, 我们尝试实现一个酉变换 \(U\) 所描述的逻辑门. 如前所述, 任何此类尝试都将遇到噪声的影响, 因此这个逻辑门的正确描述应该是一个量子操作 \(ε\). 一个刻画逻辑门成功程度的自然度量是逻辑门保真度, 即
- \[F(U, ε) ≡ \min_{\mid ψ \rangle} F(U \mid ψ \rangle, ε(\mid ψ \rangle \langle ψ \mid))\]
一个吸引人的量子信源定义方法是将它想象成一个由很多相同量子系统 (比如量子比特) 构成的信息流, 这些量子系统都由同一个物理过程产生, 对应的量子态由 \(ρ_{X_1}\), \(ρ_{X_2}\), … 描述.
量子信源的这种系综概念, 自然地产生了系综平均保真度的概念, 它描述的是信源在一个保迹量子操作描述的有噪声信道 \(ε\) 中被保护的程度, 即
- \[\overline{F} = \sum_{j} p_j F(ρ_j, ε(ρ_j))^2\]
- 其中, \(p_j\) 是信源的可能输出 \(ρ_j\) 对应的概率. 显然地, \(0 ≤ \overline{F} ≤ 1\); 如果 \(\overline{F} ≈ 1\), 则我们可以很有信心地判断, 平均来说信道 \(ε\) 以很高的精确度保护了来自信源的信息.

可能有人会问, 为什么等号右边的保真度被取平方了,
这个问题的回答由两个方面构成, 一个简单, 一个复杂. 简单回答是,
取平方可以让系综保真度和后面将要定义的纠缠保真度更自然地联系起来;
复杂的回答是, 其实到目前为止, 量子信息的概念还没有被严格界定,
甚至类似何为信息被保护等诸多概念的正确定义方法还不十分清楚.

我们考虑的信源的第二个定义来自这样一个想法, 那就是一个信道如果能很好地保护信息, 它也能很好地保护纠缠, 这个基本思路来自对错误概率分布的讨论. 我们已经指出, 错误概率 \(p(X ≠ Y)\) 的直接对应, 并不能在量子过程中定义, 因为不同时刻的概率分布在量子世界并无直接对应. 相应地, 一个距离的动态度量可以如下定义:
- 先制备一个随机变量 \(X\) 的拷贝 \(\widetilde{X}\), 接着让噪声作用在 \(X\) 上产生 \(Y\), 最后将联合概率分布 \((\widetilde{X}, X)\) 和 \((\widetilde{X}', Y)\) 之间的某种度量当作我们的距离度量.
这个模型的量子对应可以描述如下. 首先, 假设量子系统 \(Q\) 的初态是 \(ρ\), 而且 \(Q\) 被认为以某种形式跟外部世界纠缠起来. 在这里, 纠缠替代了经典模型中 \(X\) 和 \(\widetilde{X}\) 之间的关联. 为了描述纠缠, 我们假想有一个量子系统 \(R\), 使得 \(RQ\) 的联合量子态是纯态.
- 实际上, 我们将要得到的结果, 完全不依赖于这个纯化是如何实现的, 所以我们在这里假设这是一个任意的纠缠. 然后让系统 \(Q\) 经历一个量子操作 \(ε\) 描述的动态过程.
那么 \(Q\) 和 \(R\) 之间的纠缠, 在量子操作 \(ε\) 作用下被保护得怎么样呢? 我们用纠缠保真度 \(F(ρ, ε)\) 来量化这个效果, 它是一个 \(ε\) 和 \(ρ\) 的函数, 定义为
- \[\begin{align} F(ρ, ε) & ≡ F(RQ, R'Q')^2 \\ & = \langle RQ \mid [(\mathcal{I}_R \otimes ε) (\mid RQ \rangle \langle RQ \mid)] \mid RQ \rangle \\ \end{align}\]
- 其中, 撇代表着量子操作之后的量子态, 没有撇代表着量子操作之前的量子态.
- 在等式右边出现的量, 是 \(RQ\) 初态和末态之间静态保真度的平方, 这里取平方仅仅是为了方便, 它将简化纠缠保真度的一些特性.
- 注意, 纠缠保真度只依赖于 \(ε\) 和 \(ρ\), 与纯化 \(\mid RQ \rangle\) 的细节无关.
关于纠缠保真度, 一个吸引人的特点是它有一个简单的形式, 使得精确计算变得很方便. 假设 \(E_i\) 是量子操作 \(ε\) 的元素, 那么
- \[F(ρ, ε) = \langle RQ \mid ρ^{R'Q'} \mid RQ \rangle = \sum \mid \langle RQ \mid E_i \mid RQ \rangle \mid^2\]
- 假设我们将 \(\mid RQ \rangle\) 写作 \(\mid RQ \rangle = \sum_{j} \sqrt{p_j} \mid j \rangle \mid j \rangle\), 其中 \(ρ = \sum_{j} p_j \mid j \rangle \langle j \mid\), 则
- \[\begin{align} \langle RQ \mid E_i \mid RQ \rangle & = \sum_{jk} \sqrt{p_j p_k} \langle j \mid k \rangle \langle j \mid E_i \mid k \rangle \\ & = \sum_{j} p_j \langle j \mid E_i \mid j \rangle \\ & = tr(E_i ρ) \\ \end{align}\]
- 将这个表达式代入, 我们就得到一个很有用的计算形式
- \[F(ρ, ε) = \sum_{i} \mid tr(ρ E_i) \mid^2\]
在本章的最后, 我们列举一些容易证明的关于纠缠保真度的性质, 它们在后面的章节中非常有用.
- \(0 ≤ F(ρ, ε) ≤ 1\). 由静态保真度的性质立得.
- 纠缠保真度对输入的量子操作来说是线性的, 这可以根据纠缠保真度的定义立得.
- 对输入纯态来说, 纠缠保真度等于输入和输出量子态之间静态保真度的平方, 即: \(F(\mid ψ \rangle, ε) = F(\mid ψ \rangle, ε(\mid ψ \rangle \langle ψ \mid))^2\). 结合状态 \(\mid ψ \rangle\) 是它自己的纯化这个事实, 这个结论可由纠缠保真度的定义立得.
- \(F(ρ, ε) = 1\), 当且仅当对 \(ρ\) 支集中的任意纯态 \(\mid ψ \rangle\), 都有: \(ε(\mid ψ \rangle \langle ψ \mid) = \mid ψ \rangle \langle ψ \mid\). 为了证明这一点, 假设 \(F(ρ, ε) = 1\), 而 \(\mid ψ \rangle\) 是 \(ρ\) 支集中的一个纯态. 定义 \(p ≡ 1 / \langle ψ \mid ρ^{-1} \mid ψ \rangle > 0\), 而 \(σ\) 是一个满足 \((1 - p) σ = ρ - p \mid ψ \rangle \langle ψ \mid\) 的密度算子. 则根据保真度的凸性, \(1 = F(ρ, ε) ≤ p \sqrt{F(\mid ψ \rangle, ε)} + (1 - p)\). 因此, \(F(\mid ψ \rangle, ε) = 1\), 证明了上述结论中的一个方向, 而另一个方向可看作纠缠保真度定义的一个直接应用.
- 假设存在 \(η > 0\), 使得 \(\langle ψ \mid ε(\mid ψ \rangle \langle ψ \mid) \mid ψ \rangle ≥ 1 - η\) 对 \(ρ\) 支集中的所有纯态 \(\mid ψ \rangle\) 成立, 则 \(F(ρ, ε) ≥ 1 - (3η / 2)\).

本章小结
- 迹距离: \(D(ρ, σ) ≡ \frac{1}{2} tr \mid ρ - σ \mid\). 密度算子上的双重凸度量, 在量子操作下会收缩.
- 保真度: \(F(ρ, σ) ≡ tr \sqrt{ρ^{1/2} σ ρ^{1/2}} = \max_{\mid ψ \rangle, \mid φ \rangle} \mid \langle ψ \mid φ \rangle \mid\) 具有强凹性, \(F(\sum_{i} p_i ρ_i, \sum_{i} q_i σ_i) ≥ \sum_{i} \sqrt{p_i q_i} F(ρ_i, σ_i)\).
- 纠缠保真度: \(F(ρ, ε)\). 度量量子纠缠在一个量子力学过程中被保护的程度. 在这个过程中, 主系统 \(Q\) 的状态是 \(ρ\), 且 \(Q\) 与另一个量子系统 \(R\) 之间存在纠缠, 量子操作 \(ε\) 作用在系统 \(Q\) 上.

熵与信息

熵 (香农熵)

注意, 在整本书中, 我们将用 log 表示底数为 2 的对数函数,
而用 ln 表示自然对数函数. 那么根据对数函数底数的约定,
我们习惯上认为熵可以用"比特"来度量.

熵量化了可能达到的最优压缩表示. 用数据压缩来定义熵,
这一具有可操作性的动机表达了量子信息论与经典信息论共有的核心思想:
信息的基本度量是对解决某些信息处理问题所需物理资源这一基本问题的回答.

由于二值随机变量的熵非常有用, 因此我们给它一个特殊的名字, 二元熵, 定义为
- \[H_{bin} (p) ≡ -p \log p - (1 - p) \log (1 - p)\]
- 其中 \(p\) 与 \(1 - p\) 是输出两个值的概率. 在上下文定义清晰的情况下, 我们用 \(H(p)\) 来代替 \(H_{bin} (p)\).
相对熵是一种非常有用的类似熵的度量, 可以用来衡量两个概率分布 \(p(x)\), \(q(x)\) 在同一指标集 \(x\) 下的接近程度. 假设 \(p(x)\) 与 \(q(x)\) 是两个定义在同一指标集 \(x\) 上的概率分布, 定义 \(p(x)\) 对 \(q(x)\) 的相对熵为
- \[H(p(x) \| q(x)) ≡ \sum_{x} p(x) \log \frac{p(x)}{q(x)} ≡ -H(X) - \sum_{x} p(x) \log q(x)\]
- 我们定义 \(-0 \log 0 ≡ 0\), 并且当 \(p(x) > 0\) 时, \(-p(x) \log 0 ≡ +∞\).

相对熵可以用来做什么, 甚至为什么可以用来度量两个分布之间的距离, 这并不显而易见.
下面这一定理部分解释了为什么相对熵被认为是一个距离度量.

定理 (相对熵的非负性) 相对熵是非负的, 即 \(H(p(x) \| q(x)) ≥ 0\), 当且仅当对所有 \(x\) 的取值 \(p(x) = q(x)\) 时取等号.
在信息论中有一个非常有用的不等式是 \(\log x \ln 2 = \ln x ≤ x - 1\), 对所有正数 \(x\) 都成立, 并且当且仅当 \(x = 1\) 时不等式取等号.

相对熵之所以很有用并不在于它本身, 而是因为其他的熵量可以表示为相对熵的特殊形式.
那么关于相对熵的结果就可以给出在特殊情况下其他熵量的结果.
举个例子来说, 我们可以使用相对熵的非负性来证明下列关于熵的基本事实.

假设 \(p(x)\) 是 \(X\) 在 \(d\) 个输出上的概率分布, 令 \(q(x) = 1/d\) 是在这些输出上的均匀概率分布, 那么有
- \[H(p(x) \| q(x)) = H(p(x) \| 1 / d) = -H(X) - \sum_{x} p(x) \log (1 / d) = \log d - H(X)\]
从相对熵的非负性, 我们可以知道 \(\log d - H(X) ≥ 0\), 当且仅当 \(X\) 是均匀分布时取等号.
- 这是一个基本事实, 但却非常重要, 以至于我们要用定理的形式将它重新表述.
定理假设 \(X\) 是一个有 \(d\) 个取值的随机变量, 那么 \(H(X) ≤ \log d\), 当且仅当 \(X\) 是在这 \(d\) 个输出上的均匀分布时取等号.
- 在研究经典与量子熵时, 我们将经常使用这一技术, 根据相对熵来找到熵量的表达式.
在之前的章节, 我们已经遇到过一对随机变量的联合熵, 但当时没有具体说明. 为了使概念清晰, 我们现在明确地给出它的定义. \(X\) 与 \(Y\) 的联合熵以一种显然的方式定义为
- \[H(X, Y) ≡ - \sum_{x, y} p(x, y) \log p(x, y)\]
显然, 这一定义可以扩展到任意一对随机变量上. 联合熵衡量了我们对于 \((X, Y)\) 的整体不确定程度. 假设我们知道了 \(Y\) 的值, 于是我们就得到 \(H(Y)\) 个比特关于 \((X, Y)\) 的信息, 那么 \((X, Y)\) 剩余的不确定度就依赖于我们在得到 \(Y\) 的情况下对于 \(X\) 仍缺少的知识. 因此在已知 \(Y\) 的条件下, \(X\) 的熵被定义为
- \[H(X \mid Y) ≡ H(X, Y) - H(Y)\]
- 条件熵是对我们在给定 \(Y\) 的值的情况下, 对 \(X\) 的值的平均不确定度的一种度量.
第二个量是 \(X\) 与 \(Y\) 的互信息, 衡量了 \(X\) 与 \(Y\) 拥有多少共同的信息. 假设我们把 \(X\) 的信息量 \(H(X)\) 与 \(Y\) 的信息量 \(H(Y)\) 相加, \(X\) 与 \(Y\) 的相同信息将在求和时被计算两次, 而两者的不同信息将只被计算一次, 因此从中减去 \((X, Y)\) 的联合熵 \(H(X, Y)\) 之后, 我们就得到了 \(X\) 与 \(Y\) 的共同或者说互信息:
- \[H(X : Y) ≡ H(X) + H(Y) - H(X, Y)\]
- 值得注意的是, 根据条件熵与互信息的定义, 可以得到一个很有用的等式 \(H(X : Y) = H(X) - H(X \mid Y)\).
定理 (香农熵的基本性质)
- \(H(X, Y) = H(Y, X)\), \(H(X : Y) = H(Y : X)\).
- \(H(Y \mid X) ≥ 0\), 且有 \(H(X : Y) ≤ H(Y)\), 当且仅当 \(Y\) 是 \(X\) 的函数, 即 \(Y = f(X)\) 时取等号.
- \(H(X) ≤ H(X, Y)\), 当且仅当 \(Y\) 是 \(X\) 的函数时取等号.
- 次可加性: \(H(X, Y) ≤ H(X) + H(Y)\), 当且仅当 \(X\) 与 \(Y\) 是独立随机变量时取等号.
- \(H(Y \mid X) ≤ H(Y)\) 并且有 \(H(X : Y) ≥ 0\), 两式都当且仅当 \(X\) 与 \(Y\) 是独立随机变量时取等号.
- 强次可加性: \(H(X, Y, Z) + H(Y) ≤ H(X, Y) + H(Y, Z)\), 当且仅当 \(Z \to Y \to X\) 构成马尔可夫链时取等号.
- 条件化降低熵: \(H(X \mid Y, Z) ≤ H(X \mid Y)\).

定理 (条件熵链式规则) 令 \(X_1\), …, \(X_n\) 和 \(Y\) 是任意随机变量集合, 那么
- \[H(X_1, ..., X_n \mid Y) = \sum_{i = 1}^{n} H(X_i \mid Y, X_1, ..., X_{i - 1})\]
随机变量马尔可夫链的思想捕捉到了信息处理的直观思想. 马尔可夫链是这样一个随机变量序列 \(X_1 \to X_2 \to ...\), 且在给定 \(X_n\) 的情况下 \(X_{n + 1}\) 与 \(X_1\), …, \(X_{n - 1}\) 独立, 更正式地说
- \[p(X_{n + 1} = x_{n + 1} \mid X_n = x_n, ..., X_1 = x_1) = p(X_{n + 1} = x_{n + 1} \mid X_n = x_n)\]
- 随着时间不断推移, 马尔可夫链在什么情况下会丢失掉其早期值的信息? 对于这一问题, 下面的数据处理不等式给出了一个信息论式的解答.
定理 (数据处理不等式) 假设 \(X \to Y \to Z\) 是一个马尔可夫链, 那么
- \[H(X) ≥ H(X : Y) ≥ H(X : Z)\]
- 并且第一个不等式取等号当且仅当给定 \(Y\) 的情况下可以重构 \(X\).
- 这一结论从直觉上看起来是很有说服力的: 它告诉我们如果一个随机变量 \(X\) 在噪声的影响下产生了 \(Y\), 那么在我们这部分上的更进一步的操作 (“数据处理”) 不可能用来提高这一过程的输出与原始信息 \(X\) 之间的互信息.
正如上文所述, 如果 \(X \to Y \to Z\) 是马尔可夫链, 那么 \(Z \to Y \to X\) 也是马尔可夫链, 于是作为数据处理不等式的一个推论, 我们发现如果 \(X \to Y \to Z\) 是马尔可夫链, 那么有
- \[H(Z : Y) ≥ H(Z : X)\]
- 我们将这一结果称为数据管道不等式. 直观上来说, 它表达的意思是 \(Z\) 与 \(X\) 共享的任何信息都必须也被 \(Z\) 与 \(Y\) 共享, 信息如流过管道般从 \(X\) 开始经过 \(Y\) 到达 \(Z\).

冯·诺伊曼熵

冯·诺伊曼将一个量子态 \(ρ\) 的熵定义为
- \[S(ρ) ≡ - tr(ρ \log ρ)\]
- 式中对数以 \(2\) 为底. 如果 \(λ_x\) 是 \(ρ\) 的特征值, 则冯·诺伊曼的定义可写为
- \[S(ρ) = - \sum_{x} λ_x \log λ_x\]
- 此处像香农熵一样定义 \(0 \log 0 ≡ 0\). 这个式子对计算非常有用, 例如, \(d\) 维空间的完全混态 \(I / d\) 的熵为 \(\log d\).
定理 (Fannes 不等式) 假设 \(ρ\) 和 \(σ\) 为密度矩阵, 其迹距离满足 \(T(ρ, σ) ≤ 1 / e\), 则
- \[\mid S(ρ) - S(σ) \mid ≤ T(ρ, σ) \log d + η(T(ρ, σ))\]
- 其中 \(d\) 为该希尔伯特空间的维度, \(η(x) ≡ -x \log x\), 去掉 \(T(ρ, σ) ≤ 1 / e\) 的限制, 我们可以证明一个更弱的不等式
- \[\mid S(ρ) - S(σ) \mid ≤ T(ρ, σ) \log d + \frac{1}{e}\]
如同香农熵的情况, 我们有必要定义量子相对熵. 假设 \(ρ\) 和 \(σ\) 为密度算子, \(ρ\) 对于 \(σ\) 的相对熵定义为
- \[S(ρ \| σ) ≡ tr(ρ \log ρ) - tr(ρ \log σ)\]
与经典的相对熵一样, 量子相对熵有时会无穷大. 当 \(σ\) 的核 (\(σ\) 的 \(0\) 特征值对应的特征向量张成的特征空间) 与 \(ρ\) 的支集 (\(ρ\) 的非 \(0\) 特征值对应特征向量张成的向量空间) 有非平凡的交集时, 相对熵定义为 \(+∞\), 否则是有限的.
- 进而可推得克莱因不等式, 即量子相对熵总是非负的.
定理 (克莱因不等式) 量子相对熵是非负的:
- \[S(ρ \| σ) ≥ 0\]
- 当且仅当 \(ρ = σ\) 时等式成立.

定理 (冯·诺伊曼熵的基本性质)
- 熵值非负. 当且仅当量子态为纯态时熵为 \(0\).
- \(d\) 维希尔伯特空间中熵的上界为 \(\log d\). 当且仅当量子系统为最大混态 \(I / d\) 时熵为 \(\log d\).
- 假设复合系统 \(AB\) 为一个纯态, 则 \(S(A) = S(B)\).
- 假设 \(p_i\) 为概率, 态 \(ρ_i\) 存在正交子空间上的支集, 则 \(S(\sum_{i} p_i ρ_i) = H(p_i) + \sum_{i} p_i S(ρ_i)\)
- 联合熵定理: 假设 \(p_i\) 为概率, \(\mid i \rangle\) 为系统 \(A\) 的正交态, \(ρ_i\) 为另一个系统 \(B\) 上的一组密度算子, 则 \(S(\sum_{i} p_i \mid i \rangle \langle i \mid \otimes ρ_i) = H(p_i) + \sum_{i} p_i S(ρ_i)\)
类比香农熵, 可以定义复合量子系统的量子联合熵, 量子条件熵和量子互信息. 含两部分的复合系统的联合熵定义为 \(S(A, B) ≡ - tr(ρ^{AB} \log (ρ^{AB}))\), 其中 \(ρ^{AB}\) 为系统 \(AB\) 的密度矩阵. 我们如下定义条件熵和互信息:
- \[S(A \mid B) ≡ S(A, B) - S(B)\]
- \[\begin{align} S(A : B) & ≡ S(A) + S(B) - S(A, B) \\ & = S(A) - S(A \mid B) \\ & = S(B) - S(B \mid A) \\ \end{align}\]
香农熵的很多性质对冯·诺伊曼熵不成立, 由此衍生出量子信息中的很多有趣结论. 例如对于随机变量 \(X\) 和 \(Y\), 不等式 \(H(X) ≤ H(X, Y)\) 成立. 直观可得: 我们对 \(X\) 的不确定程度不能超过对 \(X\) 和 \(Y\) 联合态的不确定程度. 这个直觉对量子态不成立.
- 考虑系统 \(AB\) 的两量子比特纠缠态 \((\mid 00 \rangle + \mid 11 \rangle) / \sqrt{2}\). 这是一个纯态, 故 \(S(A, B) = 0\).
- 另一方面, 系统 \(A\) 有密度算子 \(I / 2\), 因而熵等于 \(1\). 也可陈述为, 对这个系统, \(S(B \mid A) = S(A, B) - S(A)\) 是负的.
定理 (投影测量导致熵增) 假设 \(P_i\) 为一组完备正交投影算子, \(ρ\) 为密度算子. 则测量后量子态 \(ρ' ≡ \sum_{i} P_i ρ P_i\) 的熵不小于测量前,
- \[S(ρ') ≥ S(ρ)\]
- 当且仅当 \(ρ = ρ'\) 时取等号.
假设不同的量子系统 \(A\) 和 \(B\) 有联合态 \(ρ^{AB}\), 则两个系统的联合熵满足不等式
- \[S(A, B) ≤ S(A) + S(B)\]
- \[S(A, B) ≥ \mid S(A) - S(B) \mid\]
- 前者是冯·诺伊曼熵的次可加性不等式, 当且仅当系统 \(A\) 和 \(B\) 没有关联时等号成立, 即 \(ρ^{AB} = ρ^A \otimes ρ^B\).
- 后者被称为三角不等式, 或者 Araki-Lieb 不等式, 是关于香农熵的不等式 \(H(X, Y) ≥ H(X)\) 的量子对应.

熵是关于输入的凹函数, 即给定 \(p_i\) (满足 \(\sum_{i} p_i = 1\) 的非负实数) 和对应的密度矩阵 \(ρ_i\), 熵满足不等式
- \[S(\sum_{i} p_i ρ_i) ≥ \sum_{i} p_i S(ρ_i)\]
- 直观上 \(\sum_{i} p_i ρ_i\) 表示一个量子系统处于 \(ρ_i\) 的概率为 \(p_i\), 我们对这些态混合的不确定性大于对态 \(ρ_i\) 的平均不确定性, 因为 \(\sum_{i} p_i ρ_i\) 不仅对每个态有不确定信息, 对下标 \(i\) 也有不确定信息.
我们停下来想一想证明凹性的办法, 以及证明三角不等式的类似办法: 我们引入了辅助系统 \(B\) 来证明系统 \(A\) 的结论. 量子信息里经常引入辅助系统, 之后我们会多次见到这个技巧. 引入 \(B\) 的直观原因如下:
- 我们希望找到一个系统, 其中一部分的量子态为 \(\sum_{i} p_i ρ_i\), \(i\) 的值未知. 系统 \(B\) 存储了 \(i\) 实际的值;
- 如果 \(A\) 位于态 \(ρ_i\) 则 \(B\) 处于态 \(\mid i \rangle \langle i \mid\), 在 \(\mid i \rangle\) 基底下观测即可.
- 用辅助系统严格编码我们的直觉是一门艺术, 在量子信息论中的很多证明里它也是必不可少的.
以下定理是凹性的另一面, 提供了量子态混合后熵的上界. 对于量子态 \(ρ_i\) 的混合态 \(\sum_{i} p_i ρ_i\), 以下不等式成立:
- \[\sum_{i} p_i S(ρ_i) ≤ S(\sum_{i} p_i ρ_i) ≤ \sum_{i} p_i S(ρ_i) + H(p_i)\]
- 右侧上界的直观理解为: 我们对态 \(\sum_{i} p_i ρ_i\) 的不确定性不会超过对 \(ρ_i\) 不确定性的平均值, 同时需要 \(H(p_i)\) 这一项, 代表下标 \(i\) 对总不确定性可能的最大贡献.
定理假设 \(ρ = \sum_{i} p_i ρ_i\), \(p_i\) 为一系列概率, \(ρ_i\) 为密度算子. 则
- \[S(ρ) ≤ \sum_{i} p_i S(ρ_i) + H(p_i)\]
- 当且仅当 \(ρ_i\) 有正交子空间上的支集时等式成立.

强次可加性

强次可加性的证明将基于 Lieb 定理的结论, 我们先从一个必要的定义开始. 假设 \(f(A, B)\) 是两个矩阵 \(A\) 和 \(B\) 的实函数, 如果对于所有的 \(0 ≤ λ ≤ 1\) 有
- \[f(λ A_1 + (1 - λ) A_2, λ B_1 + (1 - λ) B_2) ≥ λ f(A_1, B_1) + (1 - λ) f(A_2, B_2)\]
- 我们称 \(f\) 对于 \(A\) 和 \(B\) 是联合凹的.
定理 (Lieb 定理) 令 \(X\) 为一个矩阵, \(0 ≤ t ≤ 1\), 则函数
- \[f(A, B) ≡ tr(X^{\dagger} A^t X B^{1 - t})\]
- 在正定矩阵 \(A\) 和 \(B\) 上是联合凹的.
定理 (相对熵的凸性) 相对熵 \(S(ρ \| σ)\) 对于输入是联合凸的.
推论 (量子条件熵的凹性) 令 \(AB\) 为 \(A\) 和 \(B\) 的复合量子系统. 条件熵 \(S(A \mid B)\) 对于 \(AB\) 的态 \(ρ^{AB}\) 是凹的.
定理 (强次可加性) 对于三体量子系统 \(A\), \(B\), \(C\), 不等式
- \[S(A) + S(B) ≤ S(A, C) + S(B, C)\]
- \[S(A, B, C) + S(B) ≤ S(A, B) + S(B, C)\]
- 成立.
值得强调的是不等式 \(S(A) + S(B) ≤ S(A, C) + S(B, C)\) 成立是很了不起的, 对于香农熵对应的不等式也成立, 但是原因不同. 对于香农熵, \(H(A) ≤ H(A, C)\) 成立, \(H(B) ≤ H(B, C)\) 成立, 故两个不等式的和一定成立.
- 量子情况下, 可能存在 \(S(A) > S(A, C)\) 和 \(S(B) > S(B, C)\), 然而为了确保满足条件 \(S(A) + S(B) ≤ S(A, C) + S(B, C)\), 大自然却不会让两种可能同时存在.
也可以用条件熵和互信息改述这个不等式:
- \[0 ≤ S(C \mid A) + S(C \mid B)\]
- \[S(A : B) + S(A : C) ≤ 2S(A)\]
- 基于同样的原因, 这两个不等式也很了不起. 但值得注意的是, 你也许期望的不等式 \(0 ≤ S(A \mid C) + S(B \mid C)\) 却不成立, 例如取 \(ABC\) 为纯态 \(A\) 和 EPR 态 \(BC\) 的张量积.

为了实际应用, 强次可加性往往改写为条件或互信息.
以下定理列出了强次可加性的三个简单重组,
给出了关于量子熵性质的强大直观指导.

定理
- 限制条件减小熵: 假设 \(ABC\) 为复合量子系统, 则 \(S(A \mid B, C) ≤ S(A \mid B)\).
- 丢弃量子系统不会增加互信息: 假设 \(ABC\) 为复合量子系统, 则 \(S(A : B) ≤ S(A : B, C)\).
- 量子操作不会增加互信息: 假设 \(AB\) 为复合量子系统, \(ε\) 是一个系统 \(B\) 上的保迹量子操作. 令 \(S(A : B)\) 代表对系统 \(B\) 应用 \(ε\) 前系统 \(A\) 和 \(B\) 间的互信息, \(S(A' : B')\) 为应用之后的互信息, 则 \(S(A' : B') ≤ S(A : B)\).
定理 (条件熵的强次可加性) 令 \(ABCD\) 为复合四量子系统, 则条件熵对第一项和第二项是联合次可加的:
- \[S(A, B \mid C, D) ≤ S(A \mid C) + S(B \mid D)\]
- 令 \(ABC\) 为复合三量子系统, 则条件熵对第一项和第二项的每部分都是次可加的:
- \[S(A, B \mid C) ≤ S(A \mid C) + S(B \mid C)\]
- \[S(A \mid B, C) ≤ S(A \mid B) + S(A \mid C)\]
定理 (相对熵的单调性) 令 \(ρ^{AB}\) 和 \(σ^{AB}\) 为一个复合系统 \(AB\) 的两个密度矩阵, 则
- \[S(ρ^A \| σ^A) ≤ S(ρ^{AB} \| σ^{AB})\]
本章小结
- 信息的基本度量, 是解决一些信息处理问题所需物理资源量的答案.
- 基本定义:
- (熵) \(S(A) = -tr(ρ^A \log ρ^A)\)
- (相对熵) \(S(ρ \| σ) = - S(ρ) - tr(ρ \log σ)\)
- (条件熵) \(S(A \mid B) = S(A, B) - S(B)\)
- (互信息) \(S(A : B) = S(A) + S(B) - S(A, B)\)
- 强次可加性: \(S(A, B, C) + S(B) ≤ S(A, B) + S(B, C)\). 其他熵不等式都是它或相对熵联合凸性的推论.
- 相对熵对其输入是联合凸的.
- 相对熵是单调的: \(S(ρ^A \| σ^A) ≤ S(ρ^{AB} \| σ^{AB})\).

量子信息论

量子态的区分与可达信息

不可克隆定理

乍一看, 不可克隆定理看起来很令人费解. 毕竟经典物理学不是量子力学的特例吗?
如果不能复制量子态, 怎么能复制经典信息? 对此的回答是,
不可克隆定理并不能阻止所有量子态被复制, 它只是说非正交的量子态不能被复制.

更准确地说, 假设 \(\mid ψ \rangle\) 和 \(\mid φ \rangle\) 是两个非正交量子态. 那么不可克隆定理意味着当用 \(\mid ψ \rangle\) 或 \(\mid φ \rangle\) 输入时, 不可能构造一个量子器件输出两个输入状态的副本 \(\mid ψ \rangle \mid ψ \rangle\) 或 \(\mid φ \rangle \mid φ \rangle\).
- 另一方面, 如果 \(\mid ψ \rangle\) 和 \(\mid φ \rangle\) 是正交的, 那么不可克隆定理不会禁止它们的克隆.
- 实际上, 设计复制这些状态的量子电路相当容易! 这一结果解决了不可克隆定理与复制经典信息的能力之间的矛盾, 因为经典信息的不同状态可以被认为是正交的量子态.

不可克隆定理能等价地描述为,
在量子力学中非正交态的可达信息总小于制备的熵.

定理 (霍列沃界) 假设 Alice 制备了一个态 \(ρ_X\), 其中 \(X\) 分别以概率分布 \(p_0\), …, \(p_n\) 取 \(X = 0\), …, \(n\). Bob 对态做 POVM 测量 \(\{ E_y \} = \{ E_0, ..., E_m \}\), 测量结果为 \(Y\). 霍列沃界声明, 对于任意 Bob 能做的测量, 有
- \[H(X : Y) ≤ S(ρ) - \sum_{x} p_x S(ρ_x)\]
- 其中 \(ρ = \sum_{x} p_x ρ_x\).
- 因此, 霍列沃界是可达信息的上界. 在霍列沃界的右侧出现的量在量子信息论中非常有用, 它被赋予一个名称, 即霍列沃 \(χ\) 量, 有时记为 \(χ\).
费诺不等式
通过费诺不等式, 可以给霍列沃界赋予更多的意义. 假设 Bob 基于他的测量结果 \(Y\) 和一些由函数 \(f(·)\) 规定的猜测规则猜测 \(\widetilde{X} = f(Y)\) 为 Alice 制备的态. 然后, 根据费诺不等式和霍列沃界,
- \[\begin{align} H(p(\widetilde{X} ≠ X)) + p(\widetilde{X} ≠ X) \log (\mid X \mid - 1) & ≥ H(X \mid Y) \\ & = H(X) - H(X : Y) \\ & ≥ H(X) - χ \\ \end{align}\]
- 这允许我们对 Bob 推断出 \(X\) 的准确程度进行估计. 可以启发式地认为, \(χ\) 越小, Bob 越难以确定 Alice 制备的态.
- 比如, Alice 以一半的概率制备态 \(\mid 0 \rangle\), 一半的概率制备 \(\cos θ \mid 0 \rangle + \sin θ \mid 1 \rangle\), 如前文所述, 其界会化为 \(H(p(\widetilde{X} ≠ X)) ≥ 1 - χ\) 且 \(χ = H((1 + \cos θ) / 2)\).
- 注意到当 \(θ ≠ π / 2\) 时, Bob 有一定的概率猜错. 当 \(θ\) 趋近于零时, 错误概率变得更大. 最后, 当 \(θ = 0\) 时这两个状态无法被区分, 下界告诉我们 Bob 的错误概率至少是一半, 即他猜测 Alice 所制备状态的任何策略不会比随机更好.

数据压缩

让我们将典型序列的概念推广到二元以外的情形. 假设 \(X_1\), \(X_2\), … 是一个独立同分布信源. 通常, 从信源输出的序列中任何给定字母 \(x\) 的出现频率接近于在给定用户使用该信源时出现字母的概率 \(p(x)\). 通过这种直观的理解, 我们对典型序列的概念做出如下严格定义.
- 给定 \(ϵ > 0\), 如果
- \[2^{-n (H(X) + ϵ)} ≤ p(x_1, ..., x_n) ≤ 2^{-n (H(X) - ϵ)}\]
- 我们说源的一串符号 \(x_1\), \(x_2\), …, \(x_n\) 是 \(ϵ\) 典型的. 用 \(T(n, ϵ)\) 表示所有长度为 \(n\) 的 \(ϵ\) 典型序列的集合, 可以得到下面这一实用的等价定义形式
- \[\mid \frac{1}{n} \log \frac{1}{p(x_1, ..., x_n)} - H(X) \mid ≤ ϵ\]
- 利用大数定律, 我们可以证明典型序列定理, 这使我们能严格地认为, 在 \(n\) 充分大时, 信源输出的序列大多数都是典型的.
定理 (典型序列定理)
- 固定 \(ϵ > 0\), 对于任意 \(δ > 0\), 当 \(n\) 充分大时, 一个序列为 \(ϵ\) 典型的概率至少为 \(1 - δ\).
- 对于任意固定的 \(ϵ > 0\) 和 \(δ > 0\), 当 \(n\) 充分大时, \(ϵ\) 典型序列的个数 \(\mid T(n, ϵ) \mid\) 满足 \((1 - δ) 2^{n (H(X) - ϵ)} ≤ \mid T(n, ϵ) \mid ≤ 2^{n (H(X) + ϵ)}\)
- 令 \(S(n)\) 为由源产生的长度为 \(n\) 的某些序列的集合, 大小至多为 \(2^{nR}\), 其中 \(R < H(X)\) 固定. 对于任意 \(δ > 0\), 当 \(n\) 充分大时, \(\sum_{x \in S(n)} p(x) ≤ δ\)
定理 (大数定律) 若 \(X_1\), \(X_2\), … 为独立同分布的随机变量, 它们与 \(X\) 具有相同分布, 其具有有限的一阶矩和二阶矩, \(\mid \mathbb{E}(X) \mid < ∞\) 且 \(\mathbb{E}(X^2) < ∞\).
- 对于任意 \(ϵ > 0\), 当 \(n \to ∞\) 时, \(p(\mid S_n - \mathbb{E}(X) \mid > ϵ) \to 0\).
定理 (香农无噪声信道编码定理) 假设 \(\{ X_i \}\) 是熵率为 \(H(X)\) 的独立同分布信源, 若 \(R > H(X)\), 则存在对源的压缩率为 \(R\) 的可靠压缩方案; 反之, 若 \(R < H(X)\), 则任何压缩方案都是不可靠的.
一个 (独立同分布) 量子信源将由希尔伯特空间 \(H\) 和该空间上的密度矩阵 \(ρ\) 描述. 我们可以认为系统的状态 \(ρ\) 仅仅是处于纯态的较大系统的一部分, \(ρ\) 的混合性质是由 \(H\) 与系统剩余部分之间的纠缠导致的. 该源的压缩率为 \(R\) 的压缩方案由两个量子算子 \(C^n\) 和 \(D^n\) 组成, 其类似于在经典情况下使用的压缩和解压缩方案.
- \(C^n\) 是压缩算子, 将 \(H^{\otimes n}\) 中的态映射到一个 \(2^{nR}\) 维状态空间 (压缩空间) 中, 我们可以用 \(nR\) 个量子比特表示压缩空间.
- 算子 \(D^n\) 是解压缩操作, 将压缩空间中的态映射到原始状态空间中. 因此, 压缩解压缩组合的算子是 \(D^n ∘ C^n\). 我们对于可靠性的标准是, 在 \(n\) 充分大时, 纠缠保真度 \(F(ρ^{\otimes n}, D^n ∘ C^n)\) 应趋近于 \(1\).
典型子空间
证明量子无噪声信道编码定理的关键是典型序列的量子版本. 假设与量子源相关联的密度算子 \(ρ\) 具有正交分解
- \[ρ = \sum_{x} p(x) \mid x \rangle \langle x \mid\]
- 其中 \(\mid x \rangle\) 是正交集, \(p(x)\) 是 \(ρ\) 的特征值. \(ρ\) 的特征值 \(p(x)\) 遵循与概率分布相同的规则: 它们是非负的并且和为 \(1\).
- 此外, \(H(p(x)) = S(ρ)\). 因此, 谈论一个 \(ϵ\) 典型序列 \(x_1\), …, \(x_n\) 时有如下结论:
- \[\mid \frac{1}{n} \log (\frac{1}{p(x_1) p(x_2) ... p(x_n)}) - S(ρ) \mid ≤ ϵ\]
- 与经典定义完全相同. 一个 \(ϵ\) 典型态为一个 \(ϵ\) 典型序列 \(x_1\), \(x_2\), … \(x_n\) 对应的态 \(\mid x_1 \rangle \mid x_2 \rangle ... \mid x_n \rangle\).
- 定义 \(ϵ\) 子空间为由所有 \(ϵ\) 典型态 \(\mid x_1 \rangle \mid x_2 \rangle ... \mid x_n \rangle\) 张成的子空间. 我们用 \(T(n, ϵ)\) 表示 \(ϵ\) 典型子空间, 用 \(P(n, ϵ)\) 表示到典型子空间上的投影算子. 注意到
- \[P(n, ϵ) = \sum_{x \mbox{ 为 } ϵ \mbox{ 典型态}} \mid x_1 \rangle \langle x_1 \mid \otimes \mid x_2 \rangle \langle x_2 \mid \otimes ... \mid x_n \rangle \langle x_n \mid\]
- 下面可以将典型序列定理转化为其等效的量子形式, 即典型子空间定理.
定理 (典型子空间定理)
- 固定 \(ϵ > 0\), 对于任意 \(δ > 0\), 当 \(n\) 充分大时, \(tr(P(n, ϵ) ρ^{\otimes n}) ≥ 1 - δ\)
- 对于任意固定的 \(ϵ > 0\) 和 \(δ > 0\), 当 \(n\) 充分大时, \(ϵ\) 典型子空间 \(T(n, ϵ)\) 的维数 \(\mid T(n, ϵ) \mid = tr(P(n, ϵ))\) 满足 \((1 - δ) 2^{n(S(ρ) - ϵ)} ≤ \mid T(n, ϵ) \mid ≤ 2^{n(S(ρ) + ϵ)}\)
- 令 \(S(n)\) 为 \(H^{\otimes n}\) 的维数至多为 \(2^{nR}\) 的任意子空间, 其中 \(R < S(ρ)\) 固定. 对于任意 \(δ > 0\), 当 \(n\) 充分大时, \(tr(S(n) ρ^{\otimes n}) ≤ δ\)
定理 (Schumacher 无噪声量子信道编码定理) 令 \(\{ H, ρ \}\) 为独立同分布量子信源. 如果 \(R > S(ρ)\), 那么存在对信源 \(\{ H, ρ \}\) 压缩率为 \(R\) 的可靠压缩方案. 如果 \(R < S(ρ)\), 那么不存在对信源 \(\{ H, ρ \}\) 压缩率为 \(R\) 的可靠压缩方案.

噪声信道上的经典信息

有噪声量子信道的量子信息

作为一种物理资源的纠缠

量子密码学

本章小结
- 无克隆: 没有量子设备能够在给定一个随机的 \(\mid ψ \rangle\) 的情况下制备出 \(\mid ψ \rangle \mid ψ \rangle\).
- 霍列沃界: 当试图区分量子态 \(ρ_x\) 与概率分布 \(p_x\) 时, 最大可获取的经典信息是 \(H(X : Y) ≤ χ ≡ S(\sum_{x} p_x ρ_x) - \sum_{x} p_x S(ρ_x)\).
- Schumacher 量子无噪声信道编码定理: \(S(ρ)\) 可以解释为忠实地表示由 \(ρ\) 描述的量子源所需的量子比特数.
- Holevo-Schumacher-Westmoreland 定理: 噪声量子信道 \(ε\) 经典信息的容量由下式给出: \(C(ε) = \max_{\{ p_x, \mid ψ_x \rangle \}} S(\sum_{x} p_x ε(\mid ψ_x \rangle \langle ψ_x \mid)) - \sum_{x} p_x S(ε(\mid ψ_x \rangle \langle ψ_x \mid))\)
- 纠缠变换的优化条件: Alice 可以利用本地操作和经典交流将 \(\mid ψ \rangle\) 转化为 \(\mid φ \rangle\), 当且仅当 \(λ_ψ ≺ λ_φ\), 其中 \(λ_ψ\) 是 \(\mid ψ \rangle\) 约化密度矩阵特征值对应的特征向量 (\(λ_φ\) 同理).
- 纯态纠缠蒸馏和稀释: 当 \(n \to ∞\), Alice 和 Bob 可以通过局部运算和经典通信在联合态 \(\mid ψ \rangle\) 和 \(n S(ρ)\) 贝尔对的 \(n\) 个副本之间进行转换, 其中 \(ρ\) 是约化密度矩阵.
- 量子密码学: 通过使用非正交量子态与 BB84 等协议进行通信, 可以证明密钥分配是安全的. 由于信息增益意味着干扰, 对信道的窃听将导致可检测的错误率增加.

量子计算与量子信息 - 信息

黯乡魂, 追旅思, 夜夜除非, 好梦留人睡. 明月楼高休独倚, 酒入愁肠, 化作相思泪.

量子噪声与量子操作

量子操作

量子操作的应用

量子信息的距离度量

两个量子态有多接近

量子信道保护信息的效果怎么样?

熵与信息

冯·诺伊曼熵

强次可加性

量子信息论

量子态的区分与可达信息

数据压缩

噪声信道上的经典信息

有噪声量子信道的量子信息

作为一种物理资源的纠缠

量子密码学