Yan 的杂物志_个人主页分享

Created2023-04-18|2_Note0_Technic2_算法8_图形图像图像表示与检索

123456name_ch: 带遮蔽的自编码器是大规模的视觉学习者name_en: Masked Autoencoders Are Scalable Vision Learnersothers: MAE 论文逐段精读 https://www.bilibili.com/video/BV1sq4y1q77t/?spm_id_from=333.337.search-card.all.click&vd_source=eef058f284e51ad4598d556801a9fc84paper_addr: https://ieeexplore.ieee.org/document/9879206/journal: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)date_publish: 2022-06-01 1 读后感图像领域的无监督学习，延续 ViT 使用 Transformer 结构论文阅读_ViT，学习 BERT 遮蔽图片块，然后预测被遮蔽的块实现自我学习 autoencoder。 ...

医学论文_ICU_强化学习_SEPSIS

Created2023-04-15|2_Note0_Technic1_医学其它

读后感一般跨领域论文，方法优点在于在 RL 应用于 ICU，缺点在于 RL 方法比较老，处理不了连续数据，所以试了很多离散方法，我觉得用深度学习可能就解决了，另外，奖励只使用了患者是否死亡，比较粗。目标其目的不是进行脓毒症诊断，而是利用分布式 RL 学习和评估治疗策略。算法为每个状态 - 动作对的奖励分布建模，而不仅仅是期望值。还设计了一种新的脓毒症模拟器 (见 2.4 节)，该模拟器可以近似模拟患者在 ICU 接受治疗时的脓毒症过程。分成两部分数据，分别跑，然后对比其一致性。数据使用 MIMIC 数据，用 SEPSIS-3.0 标注 SEPSIS。使用 kNN 基于距离的方法进入数据插补（由于有些数据不测量可能是因为医学觉得不需要）。方法用聚类方式离散化数据，使用 Q-Learning 实现决策。拆分训练和测试集，好像是用训练数据训练模型，然后用测试数据测试医生操作和模型决策。定义行为：静脉输液量和血管升压药剂量表示。血管升压药包括血管加压素、多巴胺、肾上腺素、去甲肾上腺素和去氧肾上腺素，而静脉输液包括血液制品、晶体液、胶体液和团注液。定义状态：对用53 个特 ...

论文阅读_模型鲁棒性的量化指标

Created2023-04-15|2_Note0_Technic2_算法11_优化模型优化

读后感建立一个框架，用于计算和量化模型鲁棒性。使用者应根据情境，风险偏好，以及分布等角度选择不同的衡量方法。更抽象地讲，它是对不确定性的决策原则。选择不同鲁棒性评价方法会影响决策，尽量使用多个指标结合的方式。介绍根据经济学中的不确定型决策原则。在深度不确定性下，存在多种不确定因素共同影响决策的后果。在这样的系统中，系统性能通常使用鲁棒性指标来衡量。具体方法介绍 Maximin 悲观原则：有若干种结果，选择每个系列中最坏结果中的最好结果 \[ Maximin = max(min_1, min_2, ..., min_n) \] ### Maximax 乐观原则：有若干种结果，选择每个系列中最好结果中的最好结果 \[ Maximax = max(max_1, max_2, ..., max_n) \] Hurwicz optimism-pessimism rule 折衷原则：按比例结合乐观和悲观原则 \[ HOR = αMaxmin + (1 − α)Maximax \] ### Laplace's principle of insufficient reason 不充分理由原则： ...

论文阅读_图像生成_unCLIP

Created2023-04-15|2_Note0_Technic2_算法5_模型结构多模态

读后感 OpenAI 出品，应用于 DALL-E 2。主要实现了以文本为条件生成图像。它在图像的还原和生成过程中，利用了图像与文本间的映射关系，文本可以看作是人对图片内容的抽象，它让模型从人的视角“看”图片，识别了其中人觉得最重要的内容；在图片内容和人类概念之间建立联系，并能通过文本描述的概念来生成和编辑图片。从技术层面看，它主要基于 CLIP，Diffusion 模型，并在 GLIDE 的方法之上进行了改进（之前 GLIDE 尝试了有分类的 CLIP，本文尝试了无分类的 CLIP；GLIDE 对 Diffusion 中加噪图片训练 CLIP 对齐嵌入，本文用不加噪图片做 CLIP）。介绍 CLIP 模型在图片和文本之间建立映射关系，能很好的获取图片的含义和风格。本文基于 CLIP，提出了两阶段模型（如图）：首先，生成给定文本描述对应的 CLIP 图像嵌入，然后，用解码器生成以图像嵌入为条件的图像。其解码器尝试了自回归和扩散两种方法，发现扩散模型效率更高。其核心逻辑如图所示：虚线上结合了文本和图像的表示空间；虚线下是生成图片的过程，用文本嵌入产生一个图像嵌入，然后利用这个嵌入在条 ...

论文阅读_图像生成文本_CLIP

Created2023-04-15|2_Note0_Technic2_算法5_模型结构多模态

读后感使用大量数据的对比学习，基于对齐图片和文本嵌入的原理，实现了根据图像生成描述文本的功能，为后续根据文本生成图像奠定了基础。介绍文中提出 CLIP（Contrastive Language-Image Pre-training）方法，即：对比式语言 - 图像预训练。它的先进性在于：之前模型只能判断图片是否属于固定类别，而它可以根据一张图片内容，生成文本描述，或者利用文本描述的新类别匹配图片，而无需根据新类别调优模型，即零样本学习。具体实现方法利用少量有标注数据和大量无标注数据（4 亿个图片文本对）方法建模，利用对比学习训练模型，对齐文本和图像的嵌入。通过在 30 多个不同的现有视觉数据集上进行基准测试，证明该模型能很好地应用到大多数任务中。它为后面一系列的图像生成模型（利用文本生成图片）奠定了基础。比如：用 DALL-E(unCLIP) 用“小狗吹喇叭”自动生成对应的图片。方法数据虽然 MS - COCO 和 Visual Genome 是高质量的人工标记数据集，但按现代标准它们都很小。YFCC100M，在 1 亿张照片中，保留带有自然语言标题和/或英文描述的图片， ...

论文阅读_ViT

Created2023-04-08|2_Note0_Technic2_算法8_图形图像图像表示与检索

123456name_ch: 将 16x16 的块看作词：用 Transformers 实现大规模图像识别name_en: An Image is Worth 16x16 Words：Transformers for Image Recognition at Scalepaper_addr: http://arxiv.org/abs/2010.11929code: https://github.com/google-research/vision_transformerdate_publish: 2021-06-03other src: ViT 论文逐段精读：https://www.bilibili.com/video/BV15P4y137jb/?spm_id_from=333.999.0.0 读后感 ViT 是 Vision Transformer 的缩写，是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型。ViT 将输入图片分为多个 patch，再将每个 patch 投影为固定长度的向量送入 Transformer，后续 encoder 的操 ...

论文阅读_Segment_Anything

Created2023-04-07|2_Note0_Technic2_算法8_图形图像目标检测与分割

name_ch: 切分任何东西 name_en: Segment Anything paper_addr: http://arxiv.org/abs/2304.02643 date_publish: 2023-04-05 demo: https://segment-anything.com 读后感论文提出 Segment Anything (SA) 模型，无需精调，即可通过文本提示进行图像分割(抠图)。 SA 基于将 Transformer 模型应用到图像处理领域 ViT 论文阅读_ViT，对图像的无监督学习 MAE 论文阅读_MAE，以及文本图像相互映射的 CLIP 论文阅读_图像生成文本_CLIP，可以说它是图像领域大模型落地的一个精典范例。之前的图像分割模型，比如要识别图中的猫，先需要做一些标注数据，用工具把图中的猫标注出来，然后用这些标注数据在 pretrain 模型的基础上 fine-tune。 SA 论文解决了两个问题：把文字描述和图中形象联系起来；在不 fine-tune 的情况下解决 zero-shot 问题。另外，本文的一大亮点是：用先交互后自动的方式标注了数以十 ...

大语言模型_带来的一些启发

Created2023-04-01|0_IMO工作

仅代表个人看法，不喜勿喷。 The limits of my language means the limits of my world. (Ludwig Wittgenstein) 我的语言的极限意味着我的世界的极限。——维特根斯坦大语言模型解决的不仅是处理文本相关问题，它带来的是人对世界的理解，或者说让机器可以直接理解人的意图，而不再需要翻译成指邻、代码，而语言本身又隐含了人对世界的理解。从这个角度看，自然语言模型引领 AI 时代的进步也就不足为奇了。十年前说这个，可能觉得很科幻吧；三年前，当看到 GPT-3 生成的驴唇不对马嘴的文章和回答，也只当是个炒作的噱头，一笑了之；最近两个月发布的 AI 进展真称得上是日新月异了，在这一刻，当 ChatGPT 仅两个月就月活过亿，那只能说，你可以不变，但阻止不了世界改变。过分拟合人的想法是对真实世界的扭曲图片来自 GPT-4 论文 [1]，对比了预训练模型和使用强化学习调优后模型预测的分布。可以看到，没调前（左图）和真实分布基本是一致的：世界是什么样，模型就学成了什么样；学习调优反而不一致了。强化学习的目标是让 AI 的回答更符 ...

自然语言大模型介绍

Created2023-04-01|2_Note0_Technic2_算法6_自然语言

1 简介最近一直被大语言模型刷屏。本文是周末技术分享会的提纲，总结了一些自然语言模型相关的重要技术，以及各个主流公司的研究方向和进展，和大家共同学习。 2 Transformer 目前的大模型基本都是 Transformer 及其变种。本部分将介绍 Transformer 基础模型及其主要变种。 2.1 Transformer 模型 Transformer 是一种基于自注意力机制的模型，由 Encoder 和 Decoder 两部分组成。下图是精典论文《Attention is all you need》中展示的模型结构图，左边是 Encoder，右边是 Decoder， |500 在 Transformer 中，Encoder 将输入序列映射到一个高维空间中，Decoder 则将这个高维空间中的向量映射回输出序列。在 Encoder 中，所有的词一起输入一起计算；在 Decoder 中像 RNN 一样一个一个词输入，将已经出现的词计算得到的 Q 与 Encoder 计算得到的 K,V 进行计算，经过了全部 Decoder 层再经过 FC+Softmax 得到结果之后再把结 ...

论文阅读_LaMDA

Created2023-03-30|2_Note0_Technic2_算法6_自然语言其它LLM

中文名称: LaMDA：对话应用程序的语言模型英文名称: LaMDA：Language Models for Dialog Applications 论文地址: http://arxiv.org/abs/2201.08239 时间: 2022-02-10 读后感对于对话机器人的调优。提升模型的安全性和事实性，同时可咨询外部知识来源，如：信息检索系统、语言翻译器和计算器——结合了自然语言模型与其它工具。利用众包方式，选择人类偏好的回答，利用外部知识库验证其可靠性。介绍 Google 推出的 LaMDA（Language Model for Dialogue Applications），针对对话应用的大语言模型。它可以处理开放式对话，这种对话通常围绕特定主题展开（外部知识源）。方法模型结构 LaMDA 采用的是纯 decoder 的结构，类似于 GPT，使用了 46 层 Transformer。数据在公共对话数据和 web tex 的 1.56T 词进行预训练，137B 参数。以 SSI 为例，要求众包工作者与 LaMDA 实例就任何主题进行交互来收集 6400 轮，121 ...