avatar
Articles
806
Tags
240
Categories
164

Yan 的杂物志_个人主页分享
Search
GPT SoVITS语音合成模型原理
Created2024-03-08|2_Note3_Paper0_AITTS
1 简介 GPT_SoVITS 可以说是目前最好的中文语音合成模型。我没有找到它的论文和原理说明,然后通过扒代码,脑补了一下其原理。 GPT_SoVITS 不是一个端到端的工具,相反,它是一个由多个工作组合而成的工具链。其核心是 GPT 和 SoVIT 两个模型,这两个模型需要根据不同发音人进行 fine-tune。外围包含去背景音乐、语音识别、去噪、切分、提取音频特征、提取文本含义等多个现成工具,可直接使用。 可以将其分为训练和推理两个阶段来看。训练阶段的输入是目标发音人的音频,输出是经过精调后的模型;推理阶段的输入是文字和语音提示,输出是合成后的音频。 2 核心模型 |600 (推理部分图示) 为了避免混淆,在这里我们尽量不使用“语义”这个词。BERT 模型输出的是我们通常所说的“语义”,在这里我们将其称为“文本含义”。而 Semantic 也被翻译成中文的“语义”,而 cnHubert 模型输出的 Semantic 指的是一种混合了音素和文本含义的概念,我们将其称为“统计音素”。 下面通过分析推理过程来看看这些模型是如何协调工作的。从上图可以看到推理过程中模型 (黄色) 和 ...
论文阅读_参数微调_P-tuning_v2
Created2024-03-06|2_Note0_Technic2_算法5_模型结构工具
1 P-Tuning 1234567英文名称: GPT Understands, Too中文名称: GPT也懂链接: https://arxiv.org/abs/2103.10385作者: Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang机构: 清华大学, 麻省理工学院日期: 2021-03-18引用次数: 426 目标:大模型的 Prompt 构造方式严重影响下游任务的效果。离散化的 token 的搜索出来的结果可能并不是最优的,导致性能不稳定。本篇论文旨在探讨,如何提升预训练语言模型进行自然语言提示的有效性。 方法:作者提出了 P-Tuning,设计了一种连续可微的 virtual token(同 Prefix-Tuning 类似)。将 Prompt 转换为可以学习的 Embedding 层,用 MLP+LSTM 的方式来对 Prompt Embedding 进行处理。 结论:弥合 GPT 和 NLU 应用程序之间的差距 (2021 年),P 调参后的 GPT 可以比在 ...
RepoCoder:通过迭代检索和生成实现存储库级代码完成
Created2024-03-05|2_Note0_Technic0_工具代码生成
12345678英文名称: RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation中文名称: RepoCoder:通过迭代检索和生成实现存储库级代码完成链接: http://arxiv.org/abs/2303.12570v3代码: https://github.com/microsoft/CodeT/tree/main/RepoCoder中文介绍:https://zhuanlan.zhihu.com/p/672556695作者: Fengji Zhang, Bei Chen, Yue Zhang, Jacky Keung, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen机构: 香港城市大学, 微软公司, 武汉大学日期: 2023-03-22 读后感 三句话能说明白的,就不要花太长时间。 最初的代码生成采用了 in-file 方式,仅将当前代码内容传递给模型;后来,采用了 RAG 方式,将项目中相关代 ...
论文阅读_解释大模型_语言模型表示空间和时间
Created2024-03-03|2_Note0_Technic2_算法14_模型解释
12345678英文名称: LANGUAGE MODELS REPRESENT SPACE AND TIME中文名称: 语言模型表示空间和时间链接: https://www.science.org/doi/full/10.1126/science.357.6358.1344https://arxiv.org/abs/2310.02207作者: Wes Gurnee & Max Tegmark机构: 麻省理工学院日期: 2023-10-03引用次数: 81 1 读后感 作者想要研究的是:模型是只学习字面意思,还是能够学习到更深层次的知识。比如人名、地名以及与时间和空间相关的位置。为了实现这一目标,作者使用了 llama-2 模型,输入数据集中的名称,然后,对每一层的输出进行线性变换,以预测其所属的时间和空间类别。实验证明,在模型的低层就开始构建了关于时间和空间的表示。而在模型中间层达到饱和点时,参数已经学习到了实体相关的时空信息。 2 摘要 目标:分析模型是只学习字面意思,还是能够学习到更深层次的知识。 方法:通过分析 Llama-2 系列模型对三个空间数据集(世界、美国、纽约地 ...
GitHub SSH连接问题解决
Created2024-03-02|2_Note0_Technic0_工具版本管理
github 用 http 方式可连通,用 ssh 方式连不通 试将 22 端口改为 443 端口 试试默认端口 22 能否连通 1ssh -T git@github.com 试试默认端口 443 能否连通 1ssh -T git@github.com -p 443 如果 22 连不通,但 443 正常,可将端口设为 443 1234vi $HOME/.ssh/config Host github.com Hostname ssh.github.com Port 443
论文阅读_世界模型
Created2024-03-01|2_Note0_Technic2_算法15_强化学习
12345678英文名称: World Models中文名称: 世界模型链接: https://arxiv.org/abs/1803.10122示例: https://worldmodels.github.io/作者: David Ha, J¨urgen Schmidhuber机构: Google Brain, NNAISENSE, Swiss AI Lab, IDSIA (USI & SUPSI)日期: 27 Mar 2018引用次数: 1033 1 读后感 不同于之前简单的强化学习方法,这篇论文将模型分为三部分:视觉 V、记忆 M 和控制 C。视觉部分 V 将视觉信息压缩到潜空间,记忆部分 M 学习物理空间的变化规律,控制部分 C 则使用强化学习模型来学习智能体的最佳动作。 这相当于将模型拆分为大脑的不同功能区域。复杂的世界信息保留在 V 和 M 中,同时确保强化学习部分 C 足够小,以便快速训练。V 和 M 可以分别看作对空间和时间的建模。 文中还讨论了梦境和海马回放。由于有了时序预测模型 M,我们可以在没有现实输入的情况下通过 M 计算出后续状态,从而生成一个想象中的环 ...
本地语音识别模型评测
Created2024-03-01|2_Note0_Technic2_算法1_音频
1 引言 最近,朋友给我发来了一段音频,想转录成文字,并使用大型润色文本。音频中的普通话带有一定的口音,并且讲解内容较为专业,所以一般的语音识别工具很难达到较高的识别率。 于是试用了两个大模型。Whisper 是目前最好的多语言语音识别技术(ASR),之前的文章已经介绍过它的原理和部署方法;FunAsr 是阿里巴巴智能计算研究院语音实验室在 ModelScope 上开源的深度学习语音识别模型,在海量数据上对中文进行了优化,可谓国产之光。本次评测的 ASR 均能在本地部署,之前测试使用效果都不错。 本次评测将针对相对困难的语音进行真人评估,看看语音识别哪家强。 2 安装及资源占用 2.1 使用说明 这里未使用音频切分降噪进行前处理,直接将音频放入模型进行识别。 2.2 测试环境 FunAsr 使用了 GPT-SoVITS 提供的 docker 镜像中的库和模型,镜像大小 7.09G,外加模型 1.4G。 识别命令如下: 1$ /usr/local/bin/python tools/asr/funasr_asr.py -i /opt/xieyan/tmp/audio/litao/ -o o ...
Gemini大模型初体验
Created2024-03-01|2_Note0_Technic0_工具大模型其它大模型
1 使用体验 同样需要科学上网。 速度很快,而且还不要钱,据说使用太多可能被限流。 对于小语种翻译效果比 GPT-4 好,其它还没测试。 可通过 ChatBox 界面调用,也可使用 Python 调用。 2 使用 ChatBox 方式调用 在 build with gemini 申请一个 apikey 设置本机代理 下载 ChatBox,并设置模型为 gimini 和 apikey 参考:https://mp.weixin.qq.com/s/Dvc1TU554Kv68OiVp1C6UA 3 使用 Python 调用 Gimini 3.1 安装库 1$ pip install -q -U google-generativeai 3.2 代码 123456789import google.generativeai as genaigenai.configure(api_key="你申请的apikey")model = genai.GenerativeModel('gemini-pro')response = model.generate_c ...
开源代码生成工具盘点
Created2024-02-29|2_Note0_Technic0_工具代码生成
1 CodeGeeX 系列 1.1 CodeGeeX 项目地址:https://github.com/THUDM/CodeGeeX 7.6k Star 主要由 Python 编写 深度学习框架是 Mindspore 代码约 2.5W 行 有 Dockerfile,可在本地搭建环境 模型大小为 150 亿参数 使用 850 B token 训练 相对早期的代码生成模型,开放全部代码 论文 论文阅读_代码生成模型_CodeGeeX 用法 编程助手_CodeGeeX 1.2 CodeGeeX2 项目地址:https://github.com/THUDM/CodeGeeX2 6.5k Stat 主要由 Python 编写 推理部分开源,通过 pytorch 调用 代码约 1900 行,主要为示例和评测 基于 ChatGLM2 架构,模型部分也没开源,只开源推理部分 模型 60 亿参数,6G 显存即可运行 使用 600 B 代码数据预训练 支持最大 8192 序列长度 1.3 其它资源 官网:https://codegeex.cn/ 1.4 讨论 CodeGeeX 与 CodeGe ...
论文阅读_代码生成模型_CodeGeeX
Created2024-02-29|2_Note0_Technic0_工具代码生成
123456789英文名称: CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X中文名称: CodeGeeX:一种用于代码生成的预训练模型,并在HumanEval-X上进行多语言评估链接: https://arxiv.org/abs/2303.17568代码: https://github.com/THUDM/CodeGeeX 7.6k Star https://github.com/THUDM/CodeGeeX2 6.5k Star作者: Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang机构: 清华大学, Zhipu.AI, 华为日期: 2023-03-30引用次数: 89 1 读后感 这是一篇比较早的论文,于 2 ...
1…192021…81
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
806
Tags
240
Categories
164
Follow Me
Announcement
This is my Blog
Recent Post
250523_对谈_用叙事打磨世界观2025-05-23
250512_对谈_股票操作中的概率与心理2025-05-21
250520_对谈_最近发展区理论与实践2025-05-21
论文阅读_现实的叙事构建2025-05-21
2505xx_对谈_家长的角色22025-05-20
Categories
  • 0_IMO54
    • 工作1
    • 说给一个人听53
      • 01_自我建构21
        • 思考与觉悟11
        • 行动与进化10
      • 02_情绪心理12
      • 03_关系互动9
Tags
云计算 自我表达 文化 语音合成 认知建构 日常技能 模型工具 自然语言处理/工具 CentOS Web服务 数据安全 操作系统 自然语言处理 社会现象 机器学习/自动建模 语言模型 股票 深度学习/模型结构 自动化 笔记/Obsidian 翻译 开发 奖励机制 网络环境 GitHub Actions 决策哲学 父母教育 阅读/电影 Docker 机器学习/算法 程序员 人生哲学 自然语言处理/统计方法 自我反思 大模型/应用 无代码开发 权力结构 网络 自我调节 视频编辑
Archives
  • May 202565
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
  • November 20246
  • October 20244
Info
Article :
806
Total Count :
1095.3k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database