Yan 的杂物志_个人主页分享

Created2024-02-17|2_Note0_Technic6_思考公众号

日更好友最近对公众号非常热衷，经常在群里讨论。于是我也被怂恿，在 1.15 立下了日更一个月的 flag。这个月我出去玩了十天，又赶上春节假期。不过在外出期间没有断更，发布的都是之前写好的文章。春节期间其实也准备了一些新的内容，但是考虑到观众的感受，觉得假期发技术文可能会打扰到大家放松的心情，而且数据也不太好看。所以将更新时间推迟到初五。假期的最后一天，终于完成了 30+ 的更新，也算是达到了目标。其中有两三篇文章得到了流量池的推荐，新增了一百多个关注者。当然不算成功，只是一次坚持和尝试。尽管这些文章都是技术文档，但我不能尝试了一些让自己脸红的标题，效果一般。同时，也在观察和学习他人的方法。有一些想法，顺便做个总结。红海公众号可能是众多写文的平台中变现最方便，观众最多的一个，自然也是一片红海。它的易得性和超强的竞争性刚好是一体两面。各种水平的写手都在这里竞争，也不免去研究一些旁门左道，谁都一样，既然参与了都想赢，也算对自己付出的一个交代，最后很多人变成了很多为了做而做。单从挣钱的角度看，还是用自己的长板挣钱更加容易，没啥必要来拼这个。从表达和分享的角度看，多一个平台分享一 ...

Sora技术报告

Created2024-02-16|2_Note0_Technic2_算法8_图形图像Sora

报告未包括模型和实施细节技术报告原文：https://openai.com/research/video-generation-models-as-world-simulators （现在看的人太多，已经刷不出来了 24-02-16 12:00） 1 功能可生成长度一分钟的高质量视频能够生成不同持续时间、宽高比和分辨率的视频和图像以文本、图像、视频为提示，生成相应的视频内容扩展视频的前后部分，进行视频编辑（如更换环境）利用插值技术生成两个视频的过渡，或制作连续循环的视频可制作具有动态相机运动效果的视频，随着相机的移动和旋转，人物和场景元素在三维空间中保持一致的移动。模拟状态的转变，比如描绘一个人正在吃汉堡的场景，或者游戏世界的环境变化。总的来说，Sora 已经将在 AI 绘画中能做的事情在视频制作中一一实现并进行扩展。 2 底层技术将 diffusion transformers 的技术引入到视频领域在高层次上，首先将视频压缩到一个低维的潜在空间，然后将这个表示分解成时空数据 patch，从而将视频转换成多个 patch（相当于 token）。通过在网格中 ...

大模型爆款应用fabric_构建优雅的提示

Created2024-02-15|2_Note0_Technic11_应用

项目地址：https://github.com/danielmiessler/fabric 1 引言目前 fabric 已经获得了 5.3K Star，其中上周获得了 4.2K，成为了上周热榜的第二名（第一名是免费手机看电视的 Android 工具），可以算是爆款应用了。其原因可能是 fabric 打到大家的痛点：不是工具不够好，是用起来这工作流太不顺畅了，比如想用一个提示，连找带贴弄了半天，打断了当前思路…… 之前的提示常常写死在程序里，如：因为我多数时间是让大模型帮我解决具体问题，而不是聊天，好像也没听说谁每天都和它聊两小时的。所以，fabric 可能是我用过的最舒服的大模型封装工具。虽然技术含量并不是特别高，但是使用起来非常方便。别人都在考虑如何做得大而全，这位作者却想着如何解决最核心、最常见的问题，思考问题的角度比较独特。它具有以下特点：命令行操作，几乎没有学习成本，便于安装，使用、集成。封装了最为常用的几个功能。把复杂问题分解为多步处理。配置文件和输出均使用 markdown 格式，易于阅读。设计结构，便于管理多种提示。 2 功能 Fabric 的核心 ...

用深度学习模拟记忆过程

Created2024-02-15|2_Note3_Paper0_AI语言模型

1234567英文名称: A generative model of memory construction and consolidation中文名称: 记忆构建和巩固的生成模型文章: https://www.nature.com/articles/s41562-023-01799-z代码: https://github.com/ellie-as/generative-memory作者: Eleanor Spens, Neil Burgess，机构: 伦敦大学认知神经科学研究所，伦敦大学皇后广场神经病学研究所日期: 2024-01-19 1 读后感作者试图用深度学习模型来模拟人的记忆过程。论文发表在 Nature Human behaviour，收稿日期（Received）2023.5.30，发表日期是 2024.01.29。可能因为审稿时间太长，AI 领域这两年又发展太快，技术栈看起来并不是很新，如果现在做，可能有更好的方法。不过还好这是一般偏认识的论文，两位作者是认知科学和神经病学的科学家。从技术角度看，主要使用了现代霍普菲尔德网络（MHN），变分自编码器 VAE，生成网络， ...

Science重磅_让大模型像婴儿一样学习语言

Created2024-02-13|2_Note3_Paper0_AI语言模型

123456英文名称: Grounded language acquisition through the eyes and ears of a single child中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言文章: https://www.science.org/doi/10.1126/science.adi1374代码: https://github.com/wkvong/multimodalbaby作者: Wai Keen Vong, Wentao Wang, A. Emin Orhan, Brenden M. Lake, New York University日期: 2024-02-02 1 读后感这是一篇 2024 年 2 月发表在 Science 上的论文，是跨信息科学和认知科学的研究，来自纽约大学的数据科学中心和心理学系。作者主要研究了人在婴儿期如何学习关联视觉和语言。看到图 -3，模型通过学习把具象扩展到抽象的时候，真的挺激动的，会有一种：在这伟大的时代，看着人们正在创造历史的感觉。这需要有多模态技术的加持，还需要一个老实孩子。这篇文章的结构不太像医学 ...

跨品牌智能家居控制_从原理到实现_HomeAssistant

Created2024-02-08|2_Note0_Technic11_应用智能家居

项目地址：https://github.com/home-assistant/core Star：67 K 1 引言最近去南方玩，住了一些智能酒店，自动开关电视、窗帘、灯、空调，还挺好用的，尤其喜欢关灯这功能。先不说它的理解能力（对同一命令的不同描述），单讲控制能力，还比较粗糙。比如：无法细化具体开关哪个灯；有的只能控制部分电器；有的只是把语音控制转换成遥控器按键，完成一个功能需要多个步骤…… 更喜欢住智能酒店的原因主要是：这些酒店多是这两年建的，比较新、比较干净。对智能家居产生了一点兴趣。现在的智能家居用品真的不贵，比如小米的产品，就想要不也把自己家改造一下。刚好在 github 的趋势榜 top15 中看到了智能家居工具 Home Assistant，下面就一起来了解一下智能家居系统。 Home Assistant（后简称 HA）诞生于 2013 年，是一款基于 Python 的智能家居开源系统，它的主要功能是将不同品牌的智能家居设备连接起来互联互通，并将本地控制和隐私放在首位。 2 背景知识 2.1 使用方法 |500 一般的操作流程是：用户通过语音与智能助理进行交互 ...

头悬梁锥刺股?没必要：复盘如何用工具提升效率

Created2024-01-26|2_Note0_Technic0_工具其它

流量池从 2017 年 10 月，我开始写公众号，一直以来都是零零散散地写，读者也只是随随便便地看。而今年在连续日更了 10 天后，我获得了今年的第一次流量池推荐。尽管和别人动辄十万百万的阅读量没法比。但是，考虑到我的文章大量涉及代码、命令和公式，有时候我自己都觉得很枯燥，这样的小众领域这个量已经可以了。思考能进池的原因，保证质量的日更可能是最重要的。除了好友的打气鼓励和最近有较多时间以外，新工具的应用也是保证日更的关键。通过使用这些新工具，不仅能够节省时间，减少频繁切换工作流的困扰，使自己更加轻松。优化工作流以论文解读的文章为例，我的初始目标是自我积累和让生涩的文章变得易于理解，希望读者至少能够理解原理并知道如何应用。一般来说，消化一篇论文的过程如下：收集相关信息、阅读、翻译、划重点，并将其转化为中文记在笔记中，最后进行整理和重构。需要在 Google 学术、arxiv、zotero、gpt、obsidian 等各种工具之间来回切换。整个过程非常耗费精力，很难在保证质量的前提下每天都能更新。这样坚持下去确实是一件非常痛苦的事情，甚至会怀疑这样做是否值得：不仅花费时间，还 ...

论文阅读_语音识别_Wisper

Created2024-01-24|2_Note0_Technic2_算法1_音频

123456789英文名称: Robust Speech Recognition via Large-Scale Weak Supervision中文名称: 通过大规模弱监督实现鲁棒语音识别链接: https://proceedings.mlr.press/v202/radford23a.html代码: https://github.com/openai/whisper作者: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever机构: OpenAI日期: 2022-12-06引用次数: 1032 1 读后感语音识别不仅用于语音输入、语音聊天，生成字幕，还在语音合成，视频分析等等领域作为工具使用，一方面需要识别不同语音，不同发音人的音频特征，还需要生成合理通顺的文本（选择多音字，标点）等等。 Whisper 是 OPENAI 提供的语音转文字的引擎，它是一个开源工具，在自己的 GPU 机器上也能搭建。Wisper 是一个多语音识别引擎，简单用过，感觉对中文识别还是很好 ...

论文阅读_语音合成_VITS

Created2024-01-24|2_Note3_Paper0_AI语音

123456英文名称: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech中文名称: 基于条件变分自编码器和对抗学习的端到端文本到语音链接: http://arxiv.org/abs/2106.06103v1代码: https://github.com/jaywalnut310/vits作者: Jaehyeon Kim, Jungil Kong, Juhee Son日期: 2021-06-11 1 读后感简单地说，在训练过程中将语音数据和相应的文本输入模型，让模型学习这两者之间的关系。整个逻辑结构是一个大的变分自编码器，具体细节请参考方法的 VAE 部分。如图所示，在训练阶段，音素（Phonemes）可以被简单理解为文字对应的拼音或音标。它们经过文本编码（Text Encode）和映射（Projection）后，生成了文本的表示形式。左侧的线性谱（Linear Sepctrogram）是从用于训练的音频中提取的 wav 文件的音频特征。这些特征通过后 ...

语音方向精典论文品读_HuBERT

Created2024-01-24|2_Note3_Paper0_AI语音

12345678英文名称: HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units中文名称: HuBERT：通过隐藏单元的屏蔽预测进行自监督语音表示学习链接: http://arxiv.org/abs/2106.07447v1代码: https:// github.com/pytorch/fairseq/tree/master/examples/hubert作者: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed机构: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed日期: 2021-06-14引用次数: 1518 | ...