1.3. 理论

在介绍DP具体方法之前, 我们首先定义一个 $N$ 原子系统的坐标矩阵 $\mathcal{R} \in \mathbb{R}^{N \times 3}$ ，

$\mathcal{R}=\left\{{r}_{1}^{T}, \cdots, {r}_{i}^{T}, \cdots, {r}_{N}^{T}\right\}^{T}, {r}_{i}=\left(x_{i}, y_{i}, z_{i}\right),(1)$

${r}_{i}$ 表示原子 $i$ 的三维笛卡尔坐标。此外，我们将坐标矩阵 $\mathcal{R}$ 转换成局域坐标矩阵 $\left\{{\mathcal{R}}^{i}\right\}_{i=1}^{N}$ ,

${\mathcal{R}}^{i}=\left\{{r}_{1 i}^{T}, \cdots, {r}_{j i}^{T}, \cdots, {r}_{N_{i}, i}^{T}\right\}^{T}, {r}_{j i}=\left(x_{j i}, y_{j i}, z_{j i}\right),(2)$

其中 $j$ 和 $N_{i}$ 是原子 $i$ 在截断半径 $r_{c}$ 内近邻原子的编号， $j \left(1 \leq j \leq N_{i}\right)$ 表示原子 $i$ 的近邻原子编号, ${r}_{j i} \equiv {r}_{j}-{r}_{i}$ 表示的是原子 $j$ 和原子 $i$ 之间的相对距离。

在DP方法中, 一个系统的总能量 $E$ 等于各个原子的局域能量的总和

$E=\sum_{i} E_{i},(3)$

其中 $E_{i}$ 是原子 $i$ 的局域能量. 此外， $E_{i}$ 取决于原子 $i$ 的局域环境:

$E=\sum_{i} E_{i}=\sum_{i} E\left(\mathcal{R}^{i}\right),(4)$

可以通过以下两个步骤得到 ${\mathcal{R}}^{i}$ 到 $E_{i}$ 的映射：第一步，如图figure 所示,通过将 ${\mathcal{R}}^{i}$ 要映射到特征矩阵，或者说描述子 ${\mathcal{D}}^{i}$ ，这里的 ${\mathcal{D}}^{i}$ 保留了体系的平移、旋转和置换不变性。具体来说， ${\mathcal{R}}^{i} \in \mathbb{R}^{N_{i} \times 3}$ 首先被映射到一个扩展矩阵 $\tilde{{\mathcal{R}}}^{i} \in \mathbb{R}^{N_{i} \times 4}$ ，

$\left\{x_{j i}, y_{j i}, z_{j i}\right\} \mapsto\left\{s\left(r_{j i}\right), \hat{x}_{j i}, \hat{y}_{j i}, \hat{z}_{j i}\right\},(5)$

其中 $\hat{x}_{j i}=\frac{s\left(r_{j i}\right) x_{j i}}{r_{j i}}$ , $\hat{y}_{j i}=\frac{s\left(r_{j i}\right) y_{j i}}{r_{j i}}$ , $\hat{z}_{j i}=\frac{s\left(r_{j i}\right) z_{j i}}{r_{j i}}$ . $s\left(r_{j i}\right)$ 是一个权重函数，用来减少离原子 $i$ 比较远的原子的权重, 定义如下:

$s\left(r_{j i}\right)= \begin{cases}\frac{1}{r_{j i}}, & r_{j i}<r_{c s} \\ \frac{1}{r_{j i}} \{ {(\frac{r_{j i} - r_{c s}}{ r_c - r_{c s}})}^3 (-6 {(\frac{r_{j i} - r_{c s}}{ r_c - r_{c s}})}^2 +15 \frac{r_{j i} - r_{c s}}{ r_c - r_{c s}} -10) +1 \}, & r_{c s}<r_{j i}<r_{c} \\ 0, & r_{j i}>r_{c}\end{cases},(6)$

其中 $r_{j i}$ 是原子 $i$ 和原子 $j$ 之间的欧式距离, $r_{cs}$ 是“平滑截断半径”。引入 $s\left(r_{j i}\right)$ 之后， $\tilde{{\mathcal{R}}}^{i}$ 里的各个参数会从 $r_{cs}$ 到 $r_{c}$ 平滑地趋于零。接着 $\{s\left(r_{j i}\right)\}_{j=1}^{N_i}$ , 也就是 $\tilde{{\mathcal{R}}}^{i}$ 的第一列通过一个嵌入神经网络得到一个嵌入矩阵 $\mathcal{G}^{i 1} \in \mathbb{R}^{N_{i} \times M_{1}}$ . 选取 ${\mathcal{G}}^{i 1} \in \mathbb{R}^{N_{i} \times M_{1}}$ 的前 $M_{2}(<M_{1})$ 列，我们就得到了另外一个嵌入矩阵 $\mathcal{G}^{i 2} \in \mathbb{R}^{N_{i} \times M_{2}}$ . 最后，我们就可以得到原子 $i$ 的描述子 ${\mathcal{D}}^{i}$ ：

$\mathcal{D}^{i}=\left(\mathcal{G}^{i 1}\right)^{T} \tilde{\mathcal{R}}^{i}\left(\tilde{\mathcal{R}}^{i}\right)^{T} \mathcal{G}^{i 2},(7)$

在描述子中, 平移和旋转不变性是由矩阵乘积 $\tilde{\mathcal{R}}^{i}\left(\tilde{\mathcal{R}}^{i}\right)^{T}$ 来保证的, 置换不变性是由矩阵乘积 $\left(\mathcal{G}^{i}\right)^{T} \tilde{\mathcal{R}}^{i}$ 来保证的。

第二步, 每一个描述子 ${\mathcal{D}}^{i}$ 都将通过一个拟合神经网络被映射到一个局域能量 $E_{i}$ 上面。

嵌入神经网络 $\mathcal{N}^e$ 和拟合神经网络 $\mathcal{N}^f$ 都是包含很多隐藏层的前馈神经网络。前一层的输入数据 $d_{l}^{\mathrm{in}}$ 通过一个线性运算和一个非线性的激活函数得到下一层的输入数据 $d_{k}^{\mathrm{out}}$ .

$d_{k}^{o u t}=\varphi\left(\sum_{k l} w_{k l} d_{l}^{i n}+ b_{k}\right),(8)$

在公式（8）中, ${w}_{k l}$ 是权重参数, ${b}_{k}$ 是偏置参数， $\varphi$ 是一个非线性的激活函数。需要注意的是，在最后一层的输出节点是没有非线性激活函数的。在嵌入网络和拟合网络中的参数由最小化代价函数 $L$ 得到: $L\left(p_{\epsilon}, p_{f}, p_{\xi}\right)=\frac{p_{\epsilon}}{N} \Delta \epsilon^{2}+\frac{p_{f}}{3 N} \sum_{i}\left|\Delta {F}_{i}\right|^{2}+\frac{p_{\xi}}{9N}\|\Delta \xi\|^{2},(9)$