用深度学习模拟记忆过程

英文名称: A generative model of memory construction and consolidation
中文名称: 记忆构建和巩固的生成模型
文章: https://www.nature.com/articles/s41562-023-01799-z
代码: https://github.com/ellie-as/generative-memory
作者: Eleanor Spens, Neil Burgess，
机构: 伦敦大学认知神经科学研究所，伦敦大学皇后广场神经病学研究所
日期: 2024-01-19

1 读后感

作者试图用深度学习模型来模拟人的记忆过程。论文发表在 Nature Human behaviour，收稿日期（Received）2023.5.30，发表日期是 2024.01.29。可能因为审稿时间太长，AI 领域这两年又发展太快，技术栈看起来并不是很新，如果现在做，可能有更好的方法。不过还好这是一般偏认识的论文，两位作者是认知科学和神经病学的科学家。

从技术角度看，主要使用了现代霍普菲尔德网络（MHN），变分自编码器 VAE，生成网络，以及 Teacher-Student 方法，虽然都是已有技术，但作者用它们模拟了人脑思维过程，提出了一些假设，将模型的不同组件与大脑中的各个结构对应。并且讨论了 VAE 抽象过程中表现出来的与人脑类似的性质。

从认知角度看，把认知拆解成了可重现的概念和不可重现的，比如一个动物出现在森林里，在森林这个场景里，树被认为是可重现的，动物认为是不可重现的。

从研究角度看，目标是解析记忆的过程，挖掘主要特征；实现从具象到抽象的过程；研究巩固、回忆，想象，推理，遗忘的内部机制；以及人脑如何在具象和抽象概念之间进行转换和结合。

其背后的逻辑是：人的记忆并不是如实记录客观实现，而是进行了处理和压缩；回忆也不是检索而是重构，这很像变分自编码器的原理，其中客观世界是 x，记忆是 z（可进一步拆分），回忆是 x-。（人眼中的世界很大一部分是根据之前的记忆脑补出来的）

实验设计也很有意思，发现模型也与人类一致的思维扭曲倾向，从而阐释了记忆失真，夸张，贴标签，诱导的生物学解释。

因为医学论文和技术论文写法不太一样，我还是按：引言、方法&结果的方式（文中方法和结果中细项几乎是一一对应的）做了简单整理。原文内容很丰富，且此篇免费下载。另外，论文以外，我加入的信息和想法用括号斜体标出。

2 摘要

目标：用生成模型模拟记忆过程，还分析了语义记忆、想象力、情景未来思维、关系推理和扭曲的机制。

方法：提出了一个计算模型，使用海马重放（自联想网络）训练生成模型（变分自编码器），从内嗅、内侧前额叶和前外侧颞叶皮质中的潜在变量表征重新创建感觉体验。（我第一次看时也很蒙，不过其实并不难，只是内容比较多）

结果：提供了关于构建记忆、想象力和巩固的全面说明。

3 引言

"Episodic memory" 和 "Semantic memory" 是记忆的两种不同类型。（查自网络：Episodic memory 情景记忆非常具体，涉及到个人经历的特定事件或情景。这些记忆通常有时间和地点的标记，如你第一次骑自行车的记忆；Semantic memory 语义记忆涉及到一般的世界知识，包括事实、概念、名字、类别、属性等。这些记忆与特定的个人经历无关）。

前者被认为可以通过海马体（HF）的长期增强来快速捕捉多模式体验，从而使后者能够学习新皮质中多种体验的统计规律。至关重要的是，情景记忆被认为是具有可建性的，回忆是对过去经验的（重新）构建，而不是检索副本。

最初在海马体中编码的记忆最终会被存储在新皮质区域，这个想法被称为“系统巩固”，巩固还将信息转化为更抽象的表示 Contrastive，这个过程有时被称为语义化。另外，神经影像学证据表明回忆和想象力涉及相似的神经过程。

记忆系统通过学习和存储模式来帮助我们预测和理解经验，其中熟悉的内容以概念形式存储，而新奇内容则详细记录。随着时间的推移和记忆的巩固，我们的大脑会更新这些模式，使得最初难以预测的细节最终不再需要额外存储。

3.1 巩固构建生成模型

通过训练生成网络来重构记忆，使得记忆更加抽象化、有利于泛化和关系推理，但也更容易被扭曲。生成网络可以用于重构记忆或构建想象，并支持语义记忆和关系推理。

在记忆整合之前，海马自联想网络会对记忆进行编码。使用现代霍普菲尔德网络（MHN）来实现这个过程，它可以将事件激活的特征单元与一个记忆单元绑定在一起。通过教师 - 学生学习，将记忆从一个神经网络传输到另一个神经网络。因此，使用自联想网络的输出来训练生成网络，整合后，生成网络会对记忆中的信息进行编码。随着时间的推移，越来越依赖生成网络（巩固），因为它们学会了重构特定事件。

生成网络以变分自编码器（VAE）的形式实现，通过压缩数据并将其表示为潜变量，从而生成与训练数据集相似的新样本。VAE 编码器将感知经验转化为潜变量，解码器将潜变量转化回感知信息，生成网络捕捉事件或“模式”的概率分布，用于重建特定类型刺激的规则或预期概率分布。例如，办公室的模式预测了桌子和椅子等共同出现的物体，有助于生成情节。

生成模型通过计算输入和输出之间的差异来判断事件的新颖性。 一旦生成网络能够准确地重建输入，就不再需要海马痕迹。

3.2 在情景记忆中结合的概念和感觉特征

研究表明，将每个感觉细节都编码到海马体中是低效的，高效的系统应该利用记忆之间的共享结构，只编码必要的内容。因此，**建议将可预测的元素编码为概念特征，而将不可预测的元素编码为感觉特征。

假设有人在森林中看到一只动物，对于森林这个模式，树是可预测的，动物是不可预的。在扩展模型中，生成模型计算每个元素的重建误差，并将具有高重建误差的元素编码为感知特征（不可被预测），以及与生成模型的潜变量表示相关联的概念特征（可被预测）。

3.3 模型的神经机制

自联想网络模拟海马到新皮质的成分，生成网络涉及将新皮层的输入投射到更高级联皮层中的潜变量表示。嗅皮层 (EC)、前额叶皮层 (mPFC) 和前外侧颞叶 (alTL) 都是潜变量表示的主要候选。

内嗅皮质 EC 是海马体和新皮质之间的主要路线（接收来自大脑的各个皮层区域的信息，然后将这些信息传输到海马体。海马体也将信息返回到 EC，然后再传输回大脑的其他区域）；内侧前额叶皮层 mPFC 在情景记忆处理中发挥着至关重要的作用，被认为对模式进行编码，涉及传递推理和记忆整合，并通过压缩不相关的特征来执行降维；与语义记忆和逆行性遗忘相关的内侧前额叶皮层 alTL 可能包含捕获语义结构的潜变量表征。

可以同时训练多个生成网络，每个网络利用回放，针对不同的任务进行优化，以减小误差，如一个主要的 VAE 包含 EC 中的潜变量，以及从更高级感觉皮层到 EC 的额外平行通路，包含 mPFC 或 alTL 中的潜变量。另外，还需要解码器将潜在变量解码为感觉体验。

4 方法&结果

建模过程中，训练得到 VAE 网络参数。

使用模型时，支持以下几种情况：

左图：输入一个不太清楚的图像，通过压缩（抽象）再复原，产生一张清晰的图像。（有时候用扫一眼就明白，很大一部分是我们根据旧知识脑补出来的）
中图：想象，通过一些抽象的概念（可能是指定的，可能是从潜空间随机抽取的），生成具体的场景信息（写手通过想象把大概的内容描述得惟妙惟肖）。
右图：概念，输入是一个现实中的场景，输出语义概念，以便压缩后存储和进一步和推理。

4.1 数据

实验使用了 Shapes3D，MINST 数据集，每个数据集使用一个 MHN，且每个数据集根据相应的 MHN 输出训练一个生成模型。

4.2 基本网络

4.2.1 方法

海马体快速编码一个事件，建模为自动联想网络（MHN）中的一次性记忆（图中红色），模型捕捉规律并记忆。（无法用它捕捉的可视为噪声，视为不适合进一步训练其它模型，因此，使用它的输出训练生成模型，而不是原始数据）

利用师生学习实现“巩固”，其中自联想网络是“老师”，生成网络是“学生”，使用 VAE 实现（图中蓝色），进行压缩和分解，它接受“老师”重放表示的训练，通过捕获经历事件的统计结构来学习重建记忆。以得到粗粒度的概念（如森林场景中的树，可预测）以及细粒度的感觉（如随机出现的动物，不可预测）。

随着对森林场景的累积（巩固），模型进一步细化和扩充，直到 VAE 的输出与 VAE 的输入差别足够小，即可认为学到了森林相关的足够知识；在这个过程中用 VAE 逐步替换 MHN。在可直接使用 VAE 后，海马轨迹被标记为可删除或可被覆盖。

损失函数是重建误差和 KL 散度之和；前者鼓励精确重建，而后者鼓励生成一个可以从中采样的潜空间。

模拟过程中，遗忘的主要原因是生成模型中新记忆的干扰；回忆的输入是编码刺激图像的噪声版本；模型支持多模态数据。

4.2.2 结果

每个新事件都被编码为海马体中的自联想网络。该网络有两个重要的特性：只需要一次接触就能记住（编码）；网络可根据输入检索整个记忆集合中的存储记忆（模拟回放），将回忆视为根据部分输入重新构建场景；然后使用自联想网络的预测结果训练生成网络；然后将可预测部分用生成网络构建，不可预测的部分使用海马存储。

4.3 语义记忆建模

4.3.1 方法

将语义记忆定义为将隐藏变量解码为语义信息的能力，通过训练支持向量机对网络的隐藏变量进行分类来衡量解码准确性，并发现利用压缩的“语义”表示进行少样本学习是可能的。

4.3.2 结果

测试了如何在海马体和 EC 等病变的情况下，以“语义形式”检索遥远的记忆。当 HF（包括 EC）被移除时，模型仍然可以支持语义信息的检索，证明了语义记忆与海马体无关。

4.4 想象和推理建模

4.4.1 方法

在生成网络中，新的项目可以通过外部指定的或随机抽样的潜变量生成，也可以通过转换特定事件的潜变量表示生成。前者通过从潜空间中的类别进行抽样，然后解码结果来模拟。后者通过在事件的潜在表示之间进行插值或在潜在空间中进行向量运算来模拟。（此处展示抽象思考的原理）

4.4.2 结果

利用生成网络的潜变量，对生成尚未经历过的事件进行建模。事件可以通过潜在变量的外部规范（想象力）或通过转换特定事件的潜在变量表示（关系推理）来生成。

图 -3 的 b,c,d 分别示例了推理，插值，语义重建场景的效果。

4.5 基于模式的扭曲建模

4.5.1 方法

基于模式的扭曲指的是：生成网络生成的内容将变得更加典型。研究使用 MNIST 数据集训练模型。实验结果表明，回忆的类内变异性较小，且在像素空间和潜在空间中都显示出更紧凑的聚类。

4.5.2 结果

人类情景记忆会随着时间和睡眠而产生基于模式的扭曲，而生成网络的回忆会将记忆扭曲成更加典型的表示。

4.6 模拟边界延伸和收缩

4.6.1 方法

边界扩展和收缩是记忆中对观察到的视野进行扩大或收缩的倾向。具体取决于观察到的物体距离，近距离导致边界扩展，远距离导致边界收缩。使用的测试图像修改自训练期间未见过的 Shapes3D 图像。

4.6.2 结果

如图 4 的 e,f,g 所示，图 e 中第一行为输入，第二行为输出；可以看到模型倾向于将过小的内容放大，而将过大的缩小。（这有点像视觉的聚焦效果）

4.7 扩展模型

结合可预测的概念特征和不可预测的感官特征。

4.7.1 方法

对于一张新的图像，通过 VAE 计算每个像素的预测误差（即 VAE 输入和输出之间的差异）。那些重建误差超过阈值的像素构成了不可预测部分，而 VAE 的潜在变量构成了可预测部分，这些组成部分被合并编码在 MHN 中。

重建时，通过解码存储的潜变量，获得与概念组成部分对应的图像。通过将初始的感觉新皮层中的原始重建用海马体中存储的感觉特征覆盖，重新组合可预测和不可预测元素。如图 -5 a,b 所示，低阈值时，MHN 记住了更多细节。

随着生成网络的学习，潜变量的表示并不稳定。作者认为从潜变量衍生的概念比潜变量本身更有可能被存储，从而促进海马表征的稳定性，如使用上述的语义模型。

另外，再使用生成效果和海马回放来训练生成网络，让它不仅学习新记忆，还学习自己生成的表示。如同睡眠的某些阶段有助于保留远期记忆，而其他阶段则有助于巩固新记忆。以便减少新学习对生成网络中远期记忆的干扰，并使扩展模型中的海马回路表示更加稳定。

4.7.2 结果

扩展模型能够利用生成网络从其潜变量重建事件的可预测方面，仅存储那些在自联想网络中预测不佳的感官细节。随着生成网络的改进，存储在海马体中的感觉特征可能不再与感觉新皮质中的重建有显着差异，这表明不再需要海马体表示。

4.8 扩展模型中基于模式的扭曲

4.8.1 方法

我们通过操纵“事件”的概念组件，在扩展模型中展示了记忆的情境调制。将原始图像与给定概念（立方体或球体）的激活一起存储在自联想网络中。在回忆过程中，使用生成网络处理噪声输入，产生预测的概念特征和未被原型预测到的感觉特征。通过模型，可以恢复最初编码的感觉和概念特征，并将它们重新组合以产生最终输出。

DRM 任务是一种用于衡量基于要点的记忆失真的经典方法。它是向参与者展示与一个“诱饵词”在意义上相关的单词列表，但该诱饵词并不在列表中。参与者往往会错误地辨认和回忆起这个诱饵词。

4.8.2 结果

基本模型中显示的基于模式的扭曲是由生成网络引起的。在扩展模型中，即使是立即回忆也涉及概念和感官特征的组合，而概念特征的存在会在特定记忆巩固之前引起扭曲。总的来说，由于概念表示的影响，编码后的回忆偏向于类别的“平均值”。因为更多地依赖于“典型”表示。在较低的错误阈值下，会编码更多的感官细节，这导致较低的重构误差，使扭曲较小，但效率较低。

外部环境进一步扭曲了记忆。参考文献 95 要求参与者复制模糊的草图。通过告诉参与者他们将看到某个类别的图像来建立上下文。从记忆中绘制的图像被扭曲成更像上下文类别。模型回忆也会偏向于作为上下文提供的类别。

在 DRM 实验中，与人类数据一样，诱惑词经常但并不总是被记住。因为生成列表中单词的潜变量表示也倾向于生成诱饵词。系统还会忘记一些单词并产生额外的语义干扰。此外，对于较长的列表，模型回忆起诱饵词的机会更高。