avatar
Articles
806
Tags
240
Categories
164

Yan 的杂物志_个人主页分享
Search
论文阅读_语音识别_Wisper
Created2024-01-24|2_Note0_Technic2_算法1_音频
123456789英文名称: Robust Speech Recognition via Large-Scale Weak Supervision中文名称: 通过大规模弱监督实现鲁棒语音识别链接: https://proceedings.mlr.press/v202/radford23a.html代码: https://github.com/openai/whisper作者: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever机构: OpenAI日期: 2022-12-06引用次数: 1032 1 读后感 语音识别不仅用于语音输入、语音聊天,生成字幕,还在语音合成,视频分析等等领域作为工具使用,一方面需要识别不同语音,不同发音人的音频特征,还需要生成合理通顺的文本(选择多音字,标点)等等。 Whisper 是 OPENAI 提供的语音转文字的引擎,它是一个开源工具,在自己的 GPU 机器上也能搭建。Wisper 是一个多语音识别引擎,简单用过,感觉对中文识别还是很好 ...
论文阅读_语音合成_VITS
Created2024-01-24|2_Note3_Paper0_AI语音
123456英文名称: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech中文名称: 基于条件变分自编码器和对抗学习的端到端文本到语音链接: http://arxiv.org/abs/2106.06103v1代码: https://github.com/jaywalnut310/vits作者: Jaehyeon Kim, Jungil Kong, Juhee Son日期: 2021-06-11 1 读后感 简单地说,在训练过程中将语音数据和相应的文本输入模型,让模型学习这两者之间的关系。整个逻辑结构是一个大的变分自编码器,具体细节请参考方法的 VAE 部分。 如图所示,在训练阶段,音素(Phonemes)可以被简单理解为文字对应的拼音或音标。它们经过文本编码(Text Encode)和映射(Projection)后,生成了文本的表示形式。左侧的线性谱(Linear Sepctrogram)是从用于训练的音频中提取的 wav 文件的音频特征。这些特征通过后 ...
语音方向精典论文品读_HuBERT
Created2024-01-24|2_Note3_Paper0_AI语音
12345678英文名称: HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units中文名称: HuBERT:通过隐藏单元的屏蔽预测进行自监督语音表示学习链接: http://arxiv.org/abs/2106.07447v1代码: https:// github.com/pytorch/fairseq/tree/master/examples/hubert作者: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed机构: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed日期: 2021-06-14引用次数: 1518 | ...
论文阅读_语音转换_SoftVC
Created2024-01-24|2_Note3_Paper0_AI语音
12345678英文名称: A COMPARISON OF DISCRETE AND SOFT SPEECH UNITS FOR IMPROVED VOICE CONVERSION中文名称: 离散和软语音单元的比较,以改善语音转换链接: http://dx.doi.org/10.1109/icassp43922.2022.9746484代码: https://github.com/bshall/hubert作者: Benjamin van Niekerk, Marc-Andr´e Carbonneau, Julian Za¨ıdi, Matthew Baas, Hugo Seut´e, Herman Kamper机构: 育碧拉福奇(Ubisoft La Forge),蒙特利尔,加拿大,E&E工程,斯泰伦博斯大学,南非日期: 2021-11-03 1 读后感 语音转换的目标是在不改变内容的前提下,将任意说话人的声音转换为目标说话人的声音,论文的目标是通过自监督方法来实现这一功能。 在这个任务中,无监督学习通常会比有监督学习产生更好的效果。以前的无监督学习方法通常是提取音频特征,对 ...
目前见过效果最好的中文语音合成工具
Created2024-01-23|2_Note0_Technic11_应用语音
1 引言 与大型语言模型(LLM)相比,语音模型相对较小,只需要本地有 GPU 的机器就可以进行训练。我的机器是很久以前购买的 1080Ti,10G 的显存,就可以正常训练。它在中文声音模拟方面的效果也相当不错。我下载了一段十几分钟评书音频,用这个模型进行训练只需 5 分钟就能完成。我觉得它模拟的音色和抑扬顿挫的效果都相当不错,虽然不能完全模拟真人的声音,但已经是我目前使用过的最好效果了。 此外,作者评测显示用 1 分钟语音与 30 分钟的效果相似。该项目目前只发布了 TTS 工具,变声工具还在开发中。 2 安装 2.1 环境 建议在 docker 环境下的安装。这样既可以与其他工具共存,也不会破坏宿主机当前环境。我下载了与 install.sh 中指定的底层软件版本最相近的版本。基础镜像 7.2G,全部安装完 10.5G,另外下载的模型和源码也在 5G 以内。 12$ docker pull pytorch/pytorch:2.1.1-cuda12.1-cudnn8-runtime$ nvidia-docker run --network host --rm -v /exports ...
Wechatsync插件介绍
Created2024-01-20|2_Note0_Technic0_工具浏览器工具
1 使用场景 最近文章更新比较频繁,基本是日更。因此花费了相当多的时间在不同平台之间同步。时间主要消耗在:需要大致浏览一遍文章内容,另外某些平台需要手动上传图片,有时还需要调整排版。 为了解决这个问题,我选择了以一个平台为中心,比如微信公众号,将文章精心排版后,再同步到其他平台。 在 VSCode 中有插件可以实现这个功能(Markdown publisher for csdn…),在 Chrome 浏览器中也有类似的插件。虽然不能说完美,但能提高效率。 试用了几个,觉得这个最好用,本文将介绍 Chrome 插件 Wechatsync 的使用方法,并分享一些实用体验。 2 项目介绍 项目名称:Wechatsync 项目地址:https://github.com/wechatsync/Wechatsync Star:2.7K 功能:一键同步文章到多个内容平台,支持今日头条、WordPress、知乎、简书、掘金、CSDN、typecho 等主要平台,实现一次发布,多平台同步发布,提高个人生产力。 代码:项目主要使用 JavaScript 实现。 安装:从 Chrome 插件商店直接安装 ...
在没有图形界面的机器上给github配置代理的方法
Created2024-01-20|2_Note0_Technic0_工具版本管理
1 引言 近期遇到了一个棘手的问题,我使用的云服务器无法直接连接到 GitHub,使得我无法下载任何开源项目,包括之前维护的代码和下载新的项目。面对这种困扰,我选择了配置代理的方式来解决问题。然而,我很快发现,在一个没有图形用户界面(GUI)的服务器上配置代理,支持 SSH 和 HTTP 两种方式,这个过程比我预想的要复杂很多。 这个问题可能会影响到很多人,我决定写一篇详细的文章,介绍在 Linux 环境下如何配置和使用网络代理连接 github。下文将详细介绍如何使用环境变量来设置代理,如何在 Git 中配置代理,以及一些常用的代理调试工具。 2 配置代理 123456export http_proxy=http://host:port/ export https_proxy=$http_proxy export ftp_proxy=$http_proxy export rsync_proxy=$http_proxy export all_proxy=$http_proxy export no_proxy="localhost,127.0.0.1,localadd ...
配置免费SSL证书指南
Created2024-01-20|2_Note0_Technic3_编程前端
1 引言 本文介绍了如何在 Linux 环境下使用免费的 Let's Encrypt 为你的网站配置 SSL 证书的方法,以及如何在 Nginx 服务器中启用 SSL。对于需要在自己的网站上启用 HTTPS 的用户来说非常实用。 2 SSL 简介 SSL,全称为 Secure Sockets Layer,是一种网络安全协议,主要用于在互联网上对数据进行加密传输。SSL 通过使用加密算法对数据进行加密,确保数据在传输过程中的安全。同时,SSL 还提供了身份验证机制,可以验证服务器的身份以防止中间人攻击。 当你在浏览器的地址栏看到 http:// 变成 https://,或者地址栏前面出现一个锁的图标时,就表示你正在使用 SSL。"s" 即安全 "secure"。HTTPS 协议实际上就是在 HTTP 上加了一层 SSL/TLS 协议,使得数据传输更加安全。 SSL 证书是一种数字证书,它可以验证网站的身份,并提供 SSL 加密。当一个网站使用了 SSL 证书后,用户在访问这个网站时,浏览器会首先获取这个网站的 SSL 证书,然后验证这个证书的有效性。如果证书有效,浏览器就会生成一个随机的 ...
开源项目_智能的SQL客户端和报表工具_Chat2DB
Created2024-01-19|2_Note0_Technic0_工具GPT应用增强工具
1 基本信息 项目地址:https://github.com/chat2db/Chat2DB Star:10.7K 2 功能 Chat2DB 是一个智能且多功能的 SQL 客户端和报表工具,适用于各种数据库。 对于那些平时会用到数据库,但又不是数据库专家的程序员来说,Chat2DB 可以说是一种福音。 通过查看 README 中的视频,可以了解到 Chat2DB 的核心功能和用法。 其功能可分为三个主要部分: 支持 Chat 功能,可以将文本描述转换成数据库命令 连接各种数据库并执行操作,类似于 navicat 可以作为一个简化版的 navicat 使用,用于查看数据库、表和内容 除了关系型数据库,还支持 mongodb、hive 等其他类型的数据库 可以在本地运行,跨平台,且免费 可以对返回的数据进行分析并生成图表 Redis 和 MongoDB 得到部分支持,Hbase、Elasticsearch、openGauss、TiDB、InfluxDB 将在未来得到支持。 3 代码和原理 后端使用 Java 实现(3.7 万行),前端使用 TypeScript 实现(2.7 ...
论文阅读_思维链_EoT_思想交流
Created2024-01-18|2_Note0_Technic2_算法7_模型增强思维链
12345678英文名称: Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication中文名称: 思想交流:通过跨模型通信增强大型语言模型的能力链接: http://arxiv.org/abs/2312.01823v1代码: 作者: Zhangyue Yin, Qiushi Sun, Cheng Chang, Qipeng Guo, Junqi Dai, Xuanjing Huang, Xipeng Qiu机构: 复旦大学计算机科学学院, 新加坡国立大学, 上海人工智能实验室日期: 2023-12-04引用次数: 读后感 文章提出框架 EoT,可视为 CoT 框架的进化版本。它利用多个模型提升模型的推理能力,其主要工作在于设计和实现跨模型通信,包括:模型之间通信,通信终止条件,最小化错误推理对结果的影响。该模型具有整合外部多方观点的能力,可通过引入丰富的知识来提升解决问题的能力。 摘要 目标:提出一种新的框架 Exchange-of-Thought ...
1…212223…81
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
806
Tags
240
Categories
164
Follow Me
Announcement
This is my Blog
Recent Post
250523_对谈_用叙事打磨世界观2025-05-23
250512_对谈_股票操作中的概率与心理2025-05-21
250520_对谈_最近发展区理论与实践2025-05-21
论文阅读_现实的叙事构建2025-05-21
2505xx_对谈_家长的角色22025-05-20
Categories
  • 0_IMO54
    • 工作1
    • 说给一个人听53
      • 01_自我建构21
        • 思考与觉悟11
        • 行动与进化10
      • 02_情绪心理12
      • 03_关系互动9
Tags
论文阅读 音视频处理 异常检测 视频编辑 随笔 AI绘画 阅读/哲学 GitHub Actions 菜谱 视频处理 股票预测 笔记工具 协议 主题笔记 辅助编程 深度学习/知识蒸馏 后端测试 舞台感 开源许可 编程语言/前端 用户验证 反思 模型工具 旅游 程序员 认知提升 概率分布 阅读心理学 AI功能 2023年 强化学习 图形图像 Arduino 社会 数据库 #后端 艺术 数据存储/Hadoop 生活 社会关系
Archives
  • May 202565
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
  • November 20246
  • October 20244
Info
Article :
806
Total Count :
1095.3k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database