avatar
Articles
851
Tags
236
Categories
189

Yan 的杂物志_个人主页分享
Search
论文阅读_MAE
Created2023-04-18|2_Note0_Technic2_算法8_图形图像图像表示与检索
123456name_ch: 带遮蔽的自编码器是大规模的视觉学习者name_en: Masked Autoencoders Are Scalable Vision Learnersothers: MAE 论文逐段精读 https://www.bilibili.com/video/BV1sq4y1q77t/?spm_id_from=333.337.search-card.all.click&vd_source=eef058f284e51ad4598d556801a9fc84paper_addr: https://ieeexplore.ieee.org/document/9879206/journal: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)date_publish: 2022-06-01 1 读后感 图像领域的无监督学习,延续 ViT 使用 Transformer 结构 论文阅读_ViT,学习 BERT 遮蔽图片块,然后预测被遮蔽的块实现自我学习 autoencoder。 ...
医学论文_ICU_强化学习_SEPSIS
Created2023-04-15|2_Note0_Technic1_医学其它
读后感 一般跨领域论文,方法优点在于在 RL 应用于 ICU,缺点在于 RL 方法比较老,处理不了连续数据,所以试了很多离散方法,我觉得用深度学习可能就解决了,另外,奖励只使用了患者是否死亡,比较粗。 目标 其目的不是进行脓毒症诊断,而是利用分布式 RL 学习和评估治疗策略。 算法为每个状态 - 动作对的奖励分布建模,而不仅仅是期望值。 还设计了一种新的脓毒症模拟器 (见 2.4 节),该模拟器可以近似模拟患者在 ICU 接受治疗时的脓毒症过程。分成两部分数据,分别跑,然后对比其一致性。 数据 使用 MIMIC 数据,用 SEPSIS-3.0 标注 SEPSIS。使用 kNN 基于距离的方法进入数据插补(由于有些数据不测量可能是因为医学觉得不需要)。 方法 用聚类方式离散化数据,使用 Q-Learning 实现决策。 拆分训练和测试集,好像是用训练数据训练模型,然后用测试数据测试医生操作和模型决策。 定义行为:静脉输液量和血管升压药剂量表示。血管升压药包括血管加压素、多巴胺、肾上腺素、去甲肾上腺素和去氧肾上腺素,而静脉输液包括血液制品、晶体液、胶体液和团注液。 定义状态:对用53 个特 ...
论文阅读_模型鲁棒性的量化指标
Created2023-04-15|2_Note0_Technic2_算法11_优化模型优化
读后感 建立一个框架,用于计算和量化模型鲁棒性。使用者应根据情境,风险偏好,以及分布等角度选择不同的衡量方法。更抽象地讲,它是对不确定性的决策原则。选择不同鲁棒性评价方法会影响决策,尽量使用多个指标结合的方式。 介绍 根据经济学中的不确定型决策原则。在深度不确定性下,存在多种不确定因素共同影响决策的后果。在这样的系统中,系统性能通常使用鲁棒性指标来衡量。 具体方法介绍 Maximin 悲观原则:有若干种结果,选择每个系列中最坏结果中的最好结果 \[ Maximin = max(min_1, min_2, ..., min_n) \] ### Maximax 乐观原则:有若干种结果,选择每个系列中最好结果中的最好结果 \[ Maximax = max(max_1, max_2, ..., max_n) \] Hurwicz optimism-pessimism rule 折衷原则:按比例结合乐观和悲观原则 \[ HOR = αMaxmin + (1 − α)Maximax \] ### Laplace's principle of insufficient reason 不充分理由原则: ...
论文阅读_图像生成_unCLIP
Created2023-04-15|2_Note0_Technic2_算法5_模型结构多模态
读后感 OpenAI 出品,应用于 DALL-E 2。主要实现了以文本为条件生成图像。它在图像的还原和生成过程中,利用了图像与文本间的映射关系,文本可以看作是人对图片内容的抽象,它让模型从人的视角“看”图片,识别了其中人觉得最重要的内容;在图片内容和人类概念之间建立联系,并能通过文本描述的概念来生成和编辑图片。 从技术层面看,它主要基于 CLIP,Diffusion 模型,并在 GLIDE 的方法之上进行了改进(之前 GLIDE 尝试了有分类的 CLIP,本文尝试了无分类的 CLIP;GLIDE 对 Diffusion 中加噪图片训练 CLIP 对齐嵌入,本文用不加噪图片做 CLIP)。 介绍 CLIP 模型在图片和文本之间建立映射关系,能很好的获取图片的含义和风格。本文基于 CLIP,提出了两阶段模型(如图):首先,生成给定文本描述对应的 CLIP 图像嵌入,然后,用解码器生成以图像嵌入为条件的图像。其解码器尝试了自回归和扩散两种方法,发现扩散模型效率更高。 其核心逻辑如图所示:虚线上结合了文本和图像的表示空间;虚线下是生成图片的过程,用文本嵌入产生一个图像嵌入,然后利用这个嵌入在条 ...
论文阅读_图像生成文本_CLIP
Created2023-04-15|2_Note0_Technic2_算法5_模型结构多模态
读后感 使用大量数据的对比学习,基于对齐图片和文本嵌入的原理,实现了根据图像生成描述文本的功能,为后续根据文本生成图像奠定了基础。 介绍 文中提出 CLIP(Contrastive Language-Image Pre-training)方法,即:对比式语言 - 图像预训练。它的先进性在于:之前模型只能判断图片是否属于固定类别,而它可以根据一张图片内容,生成文本描述,或者利用文本描述的新类别匹配图片,而无需根据新类别调优模型,即零样本学习。 具体实现方法利用少量有标注数据和大量无标注数据(4 亿个图片文本对)方法建模,利用对比学习训练模型,对齐文本和图像的嵌入。通过在 30 多个不同的现有视觉数据集上进行基准测试,证明该模型能很好地应用到大多数任务中。 它为后面一系列的图像生成模型(利用文本生成图片)奠定了基础。比如:用 DALL-E(unCLIP) 用“小狗吹喇叭”自动生成对应的图片。 方法 数据 虽然 MS - COCO 和 Visual Genome 是高质量的人工标记数据集,但按现代标准它们都很小。YFCC100M,在 1 亿张照片中,保留带有自然语言标题和/或英文描述的图片, ...
论文阅读_ViT
Created2023-04-08|2_Note0_Technic2_算法8_图形图像图像表示与检索
123456name_ch: 将 16x16 的块看作词:用 Transformers 实现大规模图像识别name_en: An Image is Worth 16x16 Words:Transformers for Image Recognition at Scalepaper_addr: http://arxiv.org/abs/2010.11929code: https://github.com/google-research/vision_transformerdate_publish: 2021-06-03other src: ViT 论文逐段精读:https://www.bilibili.com/video/BV15P4y137jb/?spm_id_from=333.999.0.0 读后感 ViT 是 Vision Transformer 的缩写,是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型。ViT 将输入图片分为多个 patch,再将每个 patch 投影为固定长度的向量送入 Transformer,后续 encoder 的操 ...
论文阅读_Segment_Anything
Created2023-04-07|2_Note0_Technic2_算法8_图形图像目标检测与分割
name_ch: 切分任何东西 name_en: Segment Anything paper_addr: http://arxiv.org/abs/2304.02643 date_publish: 2023-04-05 demo: https://segment-anything.com 读后感 论文提出 Segment Anything (SA) 模型,无需精调,即可通过文本提示进行图像分割(抠图)。 SA 基于将 Transformer 模型应用到图像处理领域 ViT 论文阅读_ViT,对图像的无监督学习 MAE 论文阅读_MAE,以及文本图像相互映射的 CLIP 论文阅读_图像生成文本_CLIP,可以说它是图像领域大模型落地的一个精典范例。 之前的图像分割模型,比如要识别图中的猫,先需要做一些标注数据,用工具把图中的猫标注出来,然后用这些标注数据在 pretrain 模型的基础上 fine-tune。 SA 论文解决了两个问题:把文字描述和图中形象联系起来;在不 fine-tune 的情况下解决 zero-shot 问题。另外,本文的一大亮点是:用先交互后自动的方式标注了数以十 ...
大语言模型_带来的一些启发
Created2023-04-01|0_IMO工作
仅代表个人看法,不喜勿喷。 The limits of my language means the limits of my world. (Ludwig Wittgenstein) 我的语言的极限意味着我的世界的极限。——维特根斯坦 大语言模型解决的不仅是处理文本相关问题,它带来的是人对世界的理解,或者说让机器可以直接理解人的意图,而不再需要翻译成指邻、代码,而语言本身又隐含了人对世界的理解。从这个角度看,自然语言模型引领 AI 时代的进步也就不足为奇了。 十年前说这个,可能觉得很科幻吧;三年前,当看到 GPT-3 生成的驴唇不对马嘴的文章和回答,也只当是个炒作的噱头,一笑了之;最近两个月发布的 AI 进展真称得上是日新月异了,在这一刻,当 ChatGPT 仅两个月就月活过亿,那只能说,你可以不变,但阻止不了世界改变。 过分拟合人的想法是对真实世界的扭曲 图片来自 GPT-4 论文 [1],对比了预训练模型和使用强化学习调优后模型预测的分布。可以看到,没调前(左图)和真实分布基本是一致的:世界是什么样,模型就学成了什么样;学习调优反而不一致了。强化学习的目标是让 AI 的回答更符 ...
自然语言大模型介绍
Created2023-04-01|2_Note0_Technic2_算法6_自然语言
1 简介 最近一直被大语言模型刷屏。本文是周末技术分享会的提纲,总结了一些自然语言模型相关的重要技术,以及各个主流公司的研究方向和进展,和大家共同学习。 2 Transformer 目前的大模型基本都是 Transformer 及其变种。本部分将介绍 Transformer 基础模型及其主要变种。 2.1 Transformer 模型 Transformer 是一种基于自注意力机制的模型,由 Encoder 和 Decoder 两部分组成。 下图是精典论文《Attention is all you need》中展示的模型结构图,左边是 Encoder,右边是 Decoder, |500 在 Transformer 中,Encoder 将输入序列映射到一个高维空间中,Decoder 则将这个高维空间中的向量映射回输出序列。 在 Encoder 中,所有的词一起输入一起计算;在 Decoder 中像 RNN 一样一个一个词输入,将已经出现的词计算得到的 Q 与 Encoder 计算得到的 K,V 进行计算,经过了全部 Decoder 层再经过 FC+Softmax 得到结果之后再把结 ...
论文阅读_LaMDA
Created2023-03-30|2_Note0_Technic2_算法6_自然语言其它LLM
中文名称: LaMDA:对话应用程序的语言模型 英文名称: LaMDA:Language Models for Dialog Applications 论文地址: http://arxiv.org/abs/2201.08239 时间: 2022-02-10 读后感 对于对话机器人的调优。提升模型的安全性和事实性,同时可咨询外部知识来源,如:信息检索系统、语言翻译器和计算器——结合了自然语言模型与其它工具。利用众包方式,选择人类偏好的回答,利用外部知识库验证其可靠性。 介绍 Google 推出的 LaMDA(Language Model for Dialogue Applications),针对对话应用的大语言模型。它可以处理开放式对话,这种对话通常围绕特定主题展开(外部知识源)。 方法 模型结构 LaMDA 采用的是纯 decoder 的结构,类似于 GPT,使用了 46 层 Transformer。 数据 在公共对话数据和 web tex 的 1.56T 词进行预训练,137B 参数。 以 SSI 为例,要求众包工作者与 LaMDA 实例就任何主题进行交互来收集 6400 轮,121 ...
1…363738…86
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
851
Tags
236
Categories
189
Follow Me
Announcement
This is my Blog
Recent Post
LLM+知识库_总结篇2026-04-10
LLM_知识库_02_记忆宫殿2026-04-10
LLM_知识库_03_LLM_Wiki2026-04-10
模仿欲望_读后感2026-04-07
OpenAI的CUA_ComputerUseAgent2026-04-07
Categories
  • 0_IMO2
    • 工作1
    • 方法1
      • 工作1
  • 1_Data11
    • 生活9
      • 主食3
      • 菜3
Tags
图形图像 安卓开发 预算 关系抽取 策略 效率工具 后端 笔记工具 自然 生物医学 运动 AI功能 咖啡拉花 音视频处理 理财规划 数据分析 金融市场 android 心理 嵌入表示 开源项目 情绪分析 菜谱 加密货币 Ubuntu 日常琐事 公众号 开源社区 GitHub Actions 指标 视频处理 辅助编程 AI绘画 云服务器 音乐 模型解释 智能家居 效率 插件推荐 协议
Archives
  • April 202616
  • March 20265
  • February 202637
  • January 20262
  • December 20252
  • November 202511
  • October 20258
  • September 20254
Info
Article :
851
Total Count :
1084.3k
UV :
PV :
Last Push :
©2020 - 2026 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database