GPT SoVITS语音合成模型原理
1 简介
GPT_SoVITS
可以说是目前最好的中文语音合成模型。我没有找到它的论文和原理说明,然后通过扒代码,脑补了一下其原理。
GPT_SoVITS
不是一个端到端的工具,相反,它是一个由多个工作组合而成的工具链。其核心是
GPT 和 SoVIT 两个模型,这两个模型需要根据不同发音人进行
fine-tune。外围包含去背景音乐、语音识别、去噪、切分、提取音频特征、提取文本含义等多个现成工具,可直接使用。
可以将其分为训练和推理两个阶段来看。训练阶段的输入是目标发音人的音频,输出是经过精调后的模型;推理阶段的输入是文字和语音提示,输出是合成后的音频。
2 核心模型
|600
(推理部分图示)
为了避免混淆,在这里我们尽量不使用“语义”这个词。BERT
模型输出的是我们通常所说的“语义”,在这里我们将其称为“文本含义”。而
Semantic 也被翻译成中文的“语义”,而 cnHubert 模型输出的 Semantic
指的是一种混合了音素和文本含义的概念,我们将其称为“统计音素”。
下面通过分析推理过程来看看这些模型是如何协调工作的。从上图可以看到推理过程中模型
(黄色) 和 ...
论文阅读_参数微调_P-tuning_v2
1 P-Tuning
1234567英文名称: GPT Understands, Too中文名称: GPT也懂链接: https://arxiv.org/abs/2103.10385作者: Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang机构: 清华大学, 麻省理工学院日期: 2021-03-18引用次数: 426
目标:大模型的 Prompt 构造方式严重影响下游任务的效果。离散化的 token
的搜索出来的结果可能并不是最优的,导致性能不稳定。本篇论文旨在探讨,如何提升预训练语言模型进行自然语言提示的有效性。
方法:作者提出了 P-Tuning,设计了一种连续可微的 virtual token(同
Prefix-Tuning 类似)。将 Prompt 转换为可以学习的 Embedding 层,用
MLP+LSTM 的方式来对 Prompt Embedding 进行处理。
结论:弥合 GPT 和 NLU 应用程序之间的差距 (2021 年),P 调参后的 GPT
可以比在 ...
RepoCoder:通过迭代检索和生成实现存储库级代码完成
12345678英文名称: RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation中文名称: RepoCoder:通过迭代检索和生成实现存储库级代码完成链接: http://arxiv.org/abs/2303.12570v3代码: https://github.com/microsoft/CodeT/tree/main/RepoCoder中文介绍:https://zhuanlan.zhihu.com/p/672556695作者: Fengji Zhang, Bei Chen, Yue Zhang, Jacky Keung, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen机构: 香港城市大学, 微软公司, 武汉大学日期: 2023-03-22
读后感
三句话能说明白的,就不要花太长时间。
最初的代码生成采用了 in-file
方式,仅将当前代码内容传递给模型;后来,采用了 RAG
方式,将项目中相关代 ...
论文阅读_解释大模型_语言模型表示空间和时间
12345678英文名称: LANGUAGE MODELS REPRESENT SPACE AND TIME中文名称: 语言模型表示空间和时间链接: https://www.science.org/doi/full/10.1126/science.357.6358.1344https://arxiv.org/abs/2310.02207作者: Wes Gurnee & Max Tegmark机构: 麻省理工学院日期: 2023-10-03引用次数: 81
1 读后感
作者想要研究的是:模型是只学习字面意思,还是能够学习到更深层次的知识。比如人名、地名以及与时间和空间相关的位置。为了实现这一目标,作者使用了
llama-2
模型,输入数据集中的名称,然后,对每一层的输出进行线性变换,以预测其所属的时间和空间类别。实验证明,在模型的低层就开始构建了关于时间和空间的表示。而在模型中间层达到饱和点时,参数已经学习到了实体相关的时空信息。
2 摘要
目标:分析模型是只学习字面意思,还是能够学习到更深层次的知识。
方法:通过分析 Llama-2
系列模型对三个空间数据集(世界、美国、纽约地 ...
GitHub SSH连接问题解决
github 用 http 方式可连通,用 ssh 方式连不通
试将 22 端口改为 443 端口
试试默认端口 22 能否连通
1ssh -T git@github.com
试试默认端口 443 能否连通
1ssh -T git@github.com -p 443
如果 22 连不通,但 443 正常,可将端口设为 443
1234vi $HOME/.ssh/config Host github.com Hostname ssh.github.com Port 443
论文阅读_世界模型
12345678英文名称: World Models中文名称: 世界模型链接: https://arxiv.org/abs/1803.10122示例: https://worldmodels.github.io/作者: David Ha, J¨urgen Schmidhuber机构: Google Brain, NNAISENSE, Swiss AI Lab, IDSIA (USI & SUPSI)日期: 27 Mar 2018引用次数: 1033
1 读后感
不同于之前简单的强化学习方法,这篇论文将模型分为三部分:视觉 V、记忆
M 和控制 C。视觉部分 V 将视觉信息压缩到潜空间,记忆部分 M
学习物理空间的变化规律,控制部分 C
则使用强化学习模型来学习智能体的最佳动作。
这相当于将模型拆分为大脑的不同功能区域。复杂的世界信息保留在 V 和 M
中,同时确保强化学习部分 C 足够小,以便快速训练。V 和 M
可以分别看作对空间和时间的建模。
文中还讨论了梦境和海马回放。由于有了时序预测模型
M,我们可以在没有现实输入的情况下通过 M
计算出后续状态,从而生成一个想象中的环 ...
本地语音识别模型评测
1 引言
最近,朋友给我发来了一段音频,想转录成文字,并使用大型润色文本。音频中的普通话带有一定的口音,并且讲解内容较为专业,所以一般的语音识别工具很难达到较高的识别率。
于是试用了两个大模型。Whisper
是目前最好的多语言语音识别技术(ASR),之前的文章已经介绍过它的原理和部署方法;FunAsr
是阿里巴巴智能计算研究院语音实验室在 ModelScope
上开源的深度学习语音识别模型,在海量数据上对中文进行了优化,可谓国产之光。本次评测的
ASR 均能在本地部署,之前测试使用效果都不错。
本次评测将针对相对困难的语音进行真人评估,看看语音识别哪家强。
2 安装及资源占用
2.1 使用说明
这里未使用音频切分降噪进行前处理,直接将音频放入模型进行识别。
2.2 测试环境
FunAsr 使用了 GPT-SoVITS 提供的 docker 镜像中的库和模型,镜像大小
7.09G,外加模型 1.4G。
识别命令如下:
1$ /usr/local/bin/python tools/asr/funasr_asr.py -i /opt/xieyan/tmp/audio/litao/ -o o ...
Gemini大模型初体验
1 使用体验
同样需要科学上网。
速度很快,而且还不要钱,据说使用太多可能被限流。
对于小语种翻译效果比 GPT-4 好,其它还没测试。
可通过 ChatBox 界面调用,也可使用 Python 调用。
2 使用 ChatBox 方式调用
在 build with gemini 申请一个 apikey
设置本机代理
下载 ChatBox,并设置模型为 gimini 和 apikey
参考:https://mp.weixin.qq.com/s/Dvc1TU554Kv68OiVp1C6UA
3 使用 Python 调用 Gimini
3.1 安装库
1$ pip install -q -U google-generativeai
3.2 代码
123456789import google.generativeai as genaigenai.configure(api_key="你申请的apikey")model = genai.GenerativeModel('gemini-pro')response = model.generate_c ...
开源代码生成工具盘点
1 CodeGeeX 系列
1.1 CodeGeeX
项目地址:https://github.com/THUDM/CodeGeeX 7.6k Star
主要由 Python 编写
深度学习框架是 Mindspore
代码约 2.5W 行
有 Dockerfile,可在本地搭建环境
模型大小为 150 亿参数
使用 850 B token 训练
相对早期的代码生成模型,开放全部代码
论文 论文阅读_代码生成模型_CodeGeeX
用法 编程助手_CodeGeeX
1.2 CodeGeeX2
项目地址:https://github.com/THUDM/CodeGeeX2 6.5k Stat
主要由 Python 编写
推理部分开源,通过 pytorch 调用
代码约 1900 行,主要为示例和评测
基于 ChatGLM2 架构,模型部分也没开源,只开源推理部分
模型 60 亿参数,6G 显存即可运行
使用 600 B 代码数据预训练
支持最大 8192 序列长度
1.3 其它资源
官网:https://codegeex.cn/
1.4 讨论
CodeGeeX 与 CodeGe ...
论文阅读_代码生成模型_CodeGeeX
123456789英文名称: CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X中文名称: CodeGeeX:一种用于代码生成的预训练模型,并在HumanEval-X上进行多语言评估链接: https://arxiv.org/abs/2303.17568代码: https://github.com/THUDM/CodeGeeX 7.6k Star https://github.com/THUDM/CodeGeeX2 6.5k Star作者: Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang机构: 清华大学, Zhipu.AI, 华为日期: 2023-03-30引用次数: 89
1 读后感
这是一篇比较早的论文,于 2 ...