avatar
Articles
834
Tags
257
Categories
173

Yan 的杂物志_个人主页分享
Search
论文阅读_语音合成_VALL-E
Created2023-04-25|2_Note0_Technic2_算法1_音频
name_ch: 神经网络编解码器语言模型实现零样本 TTS name_en: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers date_publish: 2023-01-05 paper_addr: http://arxiv.org/abs/2301.02111 code: https://github.com/microsoft/unilm/tree/master/valle 1 读后感 语音合成模型,输入是待合成的文本,3 秒的录音,输出为与录音一致的合成后的语音内容。 2 与传统 TTS 的差异 之前的语音模型是:音素 ->梅尔倒谱 ->音频;VALL-E 是:音素 ->离散编码 ->音频。 3 主要贡献 • 我们提出了 VALL-E,有效使用上下文学习能力的 TTS 框架,音频编解码器代码作为中间表示,以取代传统的梅尔声谱图。 • 通过利用大量的半监督数据在说话者维度构建了一个通用的 TTS 系统。 • VALL-E 能够以相同的输入文本提供不同的输出,并 ...
论文阅读_音频生成_AudioLM
Created2023-04-25|2_Note0_Technic2_算法1_音频
name_ch: AudioLM:一种音频生成的语言建模方法 name_en: AudioLM:a Language Modeling Approach to Audio Generation date_publish: 2022-09-07 paper_addr: http://arxiv.org/abs/2209.03143 1 读后感 主要解决生成语音的两个问题:一致性和高质量。 2 摘要 这是一个利用长期一致性生成高质量音频的框架,它先将音频输入转成一系列离散的 token,然后将生成音频作为表示空间的语言建模。提出了一种混合的分词方案来平衡重建质量和长依赖的结构。 使用Mask 方法捕获长距离的关系,最终使用离散编码生成高品质的合成效果。它可以通过简短的提示,来生成自然连贯延续语音。利用大量无监督数据训练,在没有任何文字标注或注释的情况下,AudioLM 会生成句法和语义上合理的语音延续,同时还保持说话人身份和不可见的说话人的韵律。另外,还可以生成钢琴音乐。 3 介绍 在数据都是无监督的情况下,基于 Transformer 架构。具体使用的技术包括:对抗性神经音频压缩,自监督 ...
论文阅读_MAE
Created2023-04-18|2_Note0_Technic2_算法8_图形图像图像表示与检索
123456name_ch: 带遮蔽的自编码器是大规模的视觉学习者name_en: Masked Autoencoders Are Scalable Vision Learnersothers: MAE 论文逐段精读 https://www.bilibili.com/video/BV1sq4y1q77t/?spm_id_from=333.337.search-card.all.click&vd_source=eef058f284e51ad4598d556801a9fc84paper_addr: https://ieeexplore.ieee.org/document/9879206/journal: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)date_publish: 2022-06-01 1 读后感 图像领域的无监督学习,延续 ViT 使用 Transformer 结构 论文阅读_ViT,学习 BERT 遮蔽图片块,然后预测被遮蔽的块实现自我学习 autoencoder。 ...
医学论文_ICU_强化学习_SEPSIS
Created2023-04-15|2_Note0_Technic1_医学其它
读后感 一般跨领域论文,方法优点在于在 RL 应用于 ICU,缺点在于 RL 方法比较老,处理不了连续数据,所以试了很多离散方法,我觉得用深度学习可能就解决了,另外,奖励只使用了患者是否死亡,比较粗。 目标 其目的不是进行脓毒症诊断,而是利用分布式 RL 学习和评估治疗策略。 算法为每个状态 - 动作对的奖励分布建模,而不仅仅是期望值。 还设计了一种新的脓毒症模拟器 (见 2.4 节),该模拟器可以近似模拟患者在 ICU 接受治疗时的脓毒症过程。分成两部分数据,分别跑,然后对比其一致性。 数据 使用 MIMIC 数据,用 SEPSIS-3.0 标注 SEPSIS。使用 kNN 基于距离的方法进入数据插补(由于有些数据不测量可能是因为医学觉得不需要)。 方法 用聚类方式离散化数据,使用 Q-Learning 实现决策。 拆分训练和测试集,好像是用训练数据训练模型,然后用测试数据测试医生操作和模型决策。 定义行为:静脉输液量和血管升压药剂量表示。血管升压药包括血管加压素、多巴胺、肾上腺素、去甲肾上腺素和去氧肾上腺素,而静脉输液包括血液制品、晶体液、胶体液和团注液。 定义状态:对用53 个特 ...
论文阅读_模型鲁棒性的量化指标
Created2023-04-15|2_Note0_Technic2_算法11_优化模型优化
读后感 建立一个框架,用于计算和量化模型鲁棒性。使用者应根据情境,风险偏好,以及分布等角度选择不同的衡量方法。更抽象地讲,它是对不确定性的决策原则。选择不同鲁棒性评价方法会影响决策,尽量使用多个指标结合的方式。 介绍 根据经济学中的不确定型决策原则。在深度不确定性下,存在多种不确定因素共同影响决策的后果。在这样的系统中,系统性能通常使用鲁棒性指标来衡量。 具体方法介绍 Maximin 悲观原则:有若干种结果,选择每个系列中最坏结果中的最好结果 \[ Maximin = max(min_1, min_2, ..., min_n) \] ### Maximax 乐观原则:有若干种结果,选择每个系列中最好结果中的最好结果 \[ Maximax = max(max_1, max_2, ..., max_n) \] Hurwicz optimism-pessimism rule 折衷原则:按比例结合乐观和悲观原则 \[ HOR = αMaxmin + (1 − α)Maximax \] ### Laplace's principle of insufficient reason 不充分理由原则: ...
论文阅读_图像生成_unCLIP
Created2023-04-15|2_Note0_Technic2_算法5_模型结构多模态
读后感 OpenAI 出品,应用于 DALL-E 2。主要实现了以文本为条件生成图像。它在图像的还原和生成过程中,利用了图像与文本间的映射关系,文本可以看作是人对图片内容的抽象,它让模型从人的视角“看”图片,识别了其中人觉得最重要的内容;在图片内容和人类概念之间建立联系,并能通过文本描述的概念来生成和编辑图片。 从技术层面看,它主要基于 CLIP,Diffusion 模型,并在 GLIDE 的方法之上进行了改进(之前 GLIDE 尝试了有分类的 CLIP,本文尝试了无分类的 CLIP;GLIDE 对 Diffusion 中加噪图片训练 CLIP 对齐嵌入,本文用不加噪图片做 CLIP)。 介绍 CLIP 模型在图片和文本之间建立映射关系,能很好的获取图片的含义和风格。本文基于 CLIP,提出了两阶段模型(如图):首先,生成给定文本描述对应的 CLIP 图像嵌入,然后,用解码器生成以图像嵌入为条件的图像。其解码器尝试了自回归和扩散两种方法,发现扩散模型效率更高。 其核心逻辑如图所示:虚线上结合了文本和图像的表示空间;虚线下是生成图片的过程,用文本嵌入产生一个图像嵌入,然后利用这个嵌入在条 ...
论文阅读_图像生成文本_CLIP
Created2023-04-15|2_Note0_Technic2_算法5_模型结构多模态
读后感 使用大量数据的对比学习,基于对齐图片和文本嵌入的原理,实现了根据图像生成描述文本的功能,为后续根据文本生成图像奠定了基础。 介绍 文中提出 CLIP(Contrastive Language-Image Pre-training)方法,即:对比式语言 - 图像预训练。它的先进性在于:之前模型只能判断图片是否属于固定类别,而它可以根据一张图片内容,生成文本描述,或者利用文本描述的新类别匹配图片,而无需根据新类别调优模型,即零样本学习。 具体实现方法利用少量有标注数据和大量无标注数据(4 亿个图片文本对)方法建模,利用对比学习训练模型,对齐文本和图像的嵌入。通过在 30 多个不同的现有视觉数据集上进行基准测试,证明该模型能很好地应用到大多数任务中。 它为后面一系列的图像生成模型(利用文本生成图片)奠定了基础。比如:用 DALL-E(unCLIP) 用“小狗吹喇叭”自动生成对应的图片。 方法 数据 虽然 MS - COCO 和 Visual Genome 是高质量的人工标记数据集,但按现代标准它们都很小。YFCC100M,在 1 亿张照片中,保留带有自然语言标题和/或英文描述的图片, ...
论文阅读_ViT
Created2023-04-08|2_Note0_Technic2_算法8_图形图像图像表示与检索
123456name_ch: 将 16x16 的块看作词:用 Transformers 实现大规模图像识别name_en: An Image is Worth 16x16 Words:Transformers for Image Recognition at Scalepaper_addr: http://arxiv.org/abs/2010.11929code: https://github.com/google-research/vision_transformerdate_publish: 2021-06-03other src: ViT 论文逐段精读:https://www.bilibili.com/video/BV15P4y137jb/?spm_id_from=333.999.0.0 读后感 ViT 是 Vision Transformer 的缩写,是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型。ViT 将输入图片分为多个 patch,再将每个 patch 投影为固定长度的向量送入 Transformer,后续 encoder 的操 ...
论文阅读_Segment_Anything
Created2023-04-07|2_Note0_Technic2_算法8_图形图像目标检测与分割
name_ch: 切分任何东西 name_en: Segment Anything paper_addr: http://arxiv.org/abs/2304.02643 date_publish: 2023-04-05 demo: https://segment-anything.com 读后感 论文提出 Segment Anything (SA) 模型,无需精调,即可通过文本提示进行图像分割(抠图)。 SA 基于将 Transformer 模型应用到图像处理领域 ViT 论文阅读_ViT,对图像的无监督学习 MAE 论文阅读_MAE,以及文本图像相互映射的 CLIP 论文阅读_图像生成文本_CLIP,可以说它是图像领域大模型落地的一个精典范例。 之前的图像分割模型,比如要识别图中的猫,先需要做一些标注数据,用工具把图中的猫标注出来,然后用这些标注数据在 pretrain 模型的基础上 fine-tune。 SA 论文解决了两个问题:把文字描述和图中形象联系起来;在不 fine-tune 的情况下解决 zero-shot 问题。另外,本文的一大亮点是:用先交互后自动的方式标注了数以十 ...
大语言模型_带来的一些启发
Created2023-04-01|0_IMO工作
仅代表个人看法,不喜勿喷。 The limits of my language means the limits of my world. (Ludwig Wittgenstein) 我的语言的极限意味着我的世界的极限。——维特根斯坦 大语言模型解决的不仅是处理文本相关问题,它带来的是人对世界的理解,或者说让机器可以直接理解人的意图,而不再需要翻译成指邻、代码,而语言本身又隐含了人对世界的理解。从这个角度看,自然语言模型引领 AI 时代的进步也就不足为奇了。 十年前说这个,可能觉得很科幻吧;三年前,当看到 GPT-3 生成的驴唇不对马嘴的文章和回答,也只当是个炒作的噱头,一笑了之;最近两个月发布的 AI 进展真称得上是日新月异了,在这一刻,当 ChatGPT 仅两个月就月活过亿,那只能说,你可以不变,但阻止不了世界改变。 过分拟合人的想法是对真实世界的扭曲 图片来自 GPT-4 论文 [1],对比了预训练模型和使用强化学习调优后模型预测的分布。可以看到,没调前(左图)和真实分布基本是一致的:世界是什么样,模型就学成了什么样;学习调优反而不一致了。强化学习的目标是让 AI 的回答更符 ...
1…343536…84
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
834
Tags
257
Categories
173
Follow Me
Announcement
This is my Blog
Recent Post
优化阅读过程2025-07-14
对谈_250706_关系中的尊严2025-07-14
稳定币2025-07-14
MCP_实用场景讨论2025-07-14
国内外云主机价格对比2025-07-12
Categories
  • 0_IMO78
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听76
      • 01_自我建构29
        • 实修3
        • 思考与觉悟14
Tags
菜谱 反思 关系规则 特征工程 GitHub Actions 情绪管理 现实认知 大模型 对谈 读书 自动化 深度学习/扩散模型 AI功能 #编程语言/前端 音视频处理 深度学习/工具 #Python LLM 软件版权 生物医学 开发 机器学习 随笔 嵌入表示 Transformer 世界观 概率分布 焦虑 神经网络 后端测试 机器学习/时序 自信 操作系统/Linux Docker 生活技巧 社交 数据存储/ES Python Ubuntu 浏览器插件
Archives
  • July 202528
  • June 202539
  • May 202530
  • April 202516
  • March 20259
  • February 20252
  • January 20256
  • December 20242
Info
Article :
834
Total Count :
1154.1k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database