Yan 的杂物志_个人主页分享

Created2024-01-24|2_Note3_Paper0_AI语音

12345678英文名称: A COMPARISON OF DISCRETE AND SOFT SPEECH UNITS FOR IMPROVED VOICE CONVERSION中文名称: 离散和软语音单元的比较，以改善语音转换链接: http://dx.doi.org/10.1109/icassp43922.2022.9746484代码: https://github.com/bshall/hubert作者: Benjamin van Niekerk, Marc-Andr´e Carbonneau, Julian Za¨ıdi, Matthew Baas, Hugo Seut´e, Herman Kamper机构: 育碧拉福奇（Ubisoft La Forge），蒙特利尔，加拿大，E&E工程，斯泰伦博斯大学，南非日期: 2021-11-03 1 读后感语音转换的目标是在不改变内容的前提下，将任意说话人的声音转换为目标说话人的声音，论文的目标是通过自监督方法来实现这一功能。在这个任务中，无监督学习通常会比有监督学习产生更好的效果。以前的无监督学习方法通常是提取音频特征，对 ...

目前见过效果最好的中文语音合成工具

Created2024-01-23|2_Note0_Technic11_应用语音

1 引言与大型语言模型（LLM）相比，语音模型相对较小，只需要本地有 GPU 的机器就可以进行训练。我的机器是很久以前购买的 1080Ti，10G 的显存，就可以正常训练。它在中文声音模拟方面的效果也相当不错。我下载了一段十几分钟评书音频，用这个模型进行训练只需 5 分钟就能完成。我觉得它模拟的音色和抑扬顿挫的效果都相当不错，虽然不能完全模拟真人的声音，但已经是我目前使用过的最好效果了。此外，作者评测显示用 1 分钟语音与 30 分钟的效果相似。该项目目前只发布了 TTS 工具，变声工具还在开发中。 2 安装 2.1 环境建议在 docker 环境下的安装。这样既可以与其他工具共存，也不会破坏宿主机当前环境。我下载了与 install.sh 中指定的底层软件版本最相近的版本。基础镜像 7.2G，全部安装完 10.5G，另外下载的模型和源码也在 5G 以内。 12$ docker pull pytorch/pytorch:2.1.1-cuda12.1-cudnn8-runtime$ nvidia-docker run --network host --rm -v /exports ...

Wechatsync插件介绍

Created2024-01-20|2_Note0_Technic0_工具浏览器工具

1 使用场景最近文章更新比较频繁，基本是日更。因此花费了相当多的时间在不同平台之间同步。时间主要消耗在：需要大致浏览一遍文章内容，另外某些平台需要手动上传图片，有时还需要调整排版。为了解决这个问题，我选择了以一个平台为中心，比如微信公众号，将文章精心排版后，再同步到其他平台。在 VSCode 中有插件可以实现这个功能（Markdown publisher for csdn…），在 Chrome 浏览器中也有类似的插件。虽然不能说完美，但能提高效率。试用了几个，觉得这个最好用，本文将介绍 Chrome 插件 Wechatsync 的使用方法，并分享一些实用体验。 2 项目介绍项目名称：Wechatsync 项目地址：https://github.com/wechatsync/Wechatsync Star：2.7K 功能：一键同步文章到多个内容平台，支持今日头条、WordPress、知乎、简书、掘金、CSDN、typecho 等主要平台，实现一次发布，多平台同步发布，提高个人生产力。代码：项目主要使用 JavaScript 实现。安装：从 Chrome 插件商店直接安装 ...

在没有图形界面的机器上给github配置代理的方法

Created2024-01-20|2_Note0_Technic0_工具版本管理

1 引言近期遇到了一个棘手的问题，我使用的云服务器无法直接连接到 GitHub，使得我无法下载任何开源项目，包括之前维护的代码和下载新的项目。面对这种困扰，我选择了配置代理的方式来解决问题。然而，我很快发现，在一个没有图形用户界面（GUI）的服务器上配置代理，支持 SSH 和 HTTP 两种方式，这个过程比我预想的要复杂很多。这个问题可能会影响到很多人，我决定写一篇详细的文章，介绍在 Linux 环境下如何配置和使用网络代理连接 github。下文将详细介绍如何使用环境变量来设置代理，如何在 Git 中配置代理，以及一些常用的代理调试工具。 2 配置代理 123456export http_proxy=http://host:port/ export https_proxy=$http_proxy export ftp_proxy=$http_proxy export rsync_proxy=$http_proxy export all_proxy=$http_proxy export no_proxy="localhost,127.0.0.1,localadd ...

配置免费SSL证书指南

Created2024-01-20|2_Note0_Technic3_编程前端

1 引言本文介绍了如何在 Linux 环境下使用免费的 Let's Encrypt 为你的网站配置 SSL 证书的方法，以及如何在 Nginx 服务器中启用 SSL。对于需要在自己的网站上启用 HTTPS 的用户来说非常实用。 2 SSL 简介 SSL，全称为 Secure Sockets Layer，是一种网络安全协议，主要用于在互联网上对数据进行加密传输。SSL 通过使用加密算法对数据进行加密，确保数据在传输过程中的安全。同时，SSL 还提供了身份验证机制，可以验证服务器的身份以防止中间人攻击。当你在浏览器的地址栏看到 http:// 变成 https://，或者地址栏前面出现一个锁的图标时，就表示你正在使用 SSL。"s" 即安全 "secure"。HTTPS 协议实际上就是在 HTTP 上加了一层 SSL/TLS 协议，使得数据传输更加安全。 SSL 证书是一种数字证书，它可以验证网站的身份，并提供 SSL 加密。当一个网站使用了 SSL 证书后，用户在访问这个网站时，浏览器会首先获取这个网站的 SSL 证书，然后验证这个证书的有效性。如果证书有效，浏览器就会生成一个随机的 ...

开源项目_智能的SQL客户端和报表工具_Chat2DB

Created2024-01-19|2_Note0_Technic0_工具GPT应用增强工具

1 基本信息项目地址：https://github.com/chat2db/Chat2DB Star：10.7K 2 功能 Chat2DB 是一个智能且多功能的 SQL 客户端和报表工具，适用于各种数据库。对于那些平时会用到数据库，但又不是数据库专家的程序员来说，Chat2DB 可以说是一种福音。通过查看 README 中的视频，可以了解到 Chat2DB 的核心功能和用法。其功能可分为三个主要部分：支持 Chat 功能，可以将文本描述转换成数据库命令连接各种数据库并执行操作，类似于 navicat 可以作为一个简化版的 navicat 使用，用于查看数据库、表和内容除了关系型数据库，还支持 mongodb、hive 等其他类型的数据库可以在本地运行，跨平台，且免费可以对返回的数据进行分析并生成图表 Redis 和 MongoDB 得到部分支持，Hbase、Elasticsearch、openGauss、TiDB、InfluxDB 将在未来得到支持。 3 代码和原理后端使用 Java 实现（3.7 万行），前端使用 TypeScript 实现（2.7 ...

论文阅读_思维链_EoT_思想交流

Created2024-01-18|2_Note0_Technic2_算法7_模型增强思维链

12345678英文名称: Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication中文名称: 思想交流：通过跨模型通信增强大型语言模型的能力链接: http://arxiv.org/abs/2312.01823v1代码: 作者: Zhangyue Yin, Qiushi Sun, Cheng Chang, Qipeng Guo, Junqi Dai, Xuanjing Huang, Xipeng Qiu机构: 复旦大学计算机科学学院, 新加坡国立大学, 上海人工智能实验室日期: 2023-12-04引用次数: 读后感文章提出框架 EoT，可视为 CoT 框架的进化版本。它利用多个模型提升模型的推理能力，其主要工作在于设计和实现跨模型通信，包括：模型之间通信，通信终止条件，最小化错误推理对结果的影响。该模型具有整合外部多方观点的能力，可通过引入丰富的知识来提升解决问题的能力。摘要目标：提出一种新的框架 Exchange-of-Thought ...

TinyLlama: 一个开源的小型语言模型

Created2024-01-17|2_Note3_Paper0_AI语言模型

123456789英文名称: 'TinyLlama: An Open-Source Small Language Model'中文名称: 'TinyLlama: 一个开源的小型语言模型链接: http://arxiv.org/abs/2401.02385v1代码: https://github.com/jzhang38/TinyLlama试用: https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v0.1作者: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu机构: 新加坡科技与设计大学日期: 2024-01-04引用次数: 1 读后感文中介绍了 TinyLlama 一种开源的轻量级大语言模型。作者发布了所有相关信息，包括的预训练代码、所有中间模型检查点以及数据处理步骤的细节。TinyLlama 可以在移动设备上支持最终用户应用程序，并作为测试语言模型的轻量级平台。 TinyLlama 相对于 Llama2，在架构和算法上都没有太多改进，但有一些微 ...

Python语音合成方法汇总

Created2024-01-17|2_Note0_Technic3_编程Python工具

1 离线合成 pytts 配置环境 12345$ apt-get update$ apt-get install espeak$ pip install pyttsx3$ apt-get install ffmpeg$ apt-get install alsa-utils 运行程序 123456789101112import pyttsx3engine = pyttsx3.init()engine.setProperty('rate', 150)engine.setProperty('volume', 0.7)text = "你好，欢迎使用 pyttsx3 中文语音合成！"engine.say(text)engine.runAndWait()engine.save_to_file(text, 'output.wav')engine.runAndWait() 描述：十几年前的老工具，用规则实现，虽然能用但效果不好优点：可以离线使用缺点：塑料声太严重，反正我接受不了 2 google 语音合成配置环境 1 ...

从复杂到简单：揭示小型语言模型推理的认知树

Created2024-01-16|2_Note0_Technic2_算法7_模型增强思维链

12345678英文名称: From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models中文名称: 从复杂到简单：揭示小型语言模型推理的认知树链接: http://arxiv.org/abs/2311.06754v1代码: https://github.com/alibaba/EasyNLP作者: Junbing Yan, Chengyu Wang, Taolin Zhang, Xiaofeng He, Jun Huang, Wei Zhang机构: 华东师范大学计算机科学与技术学院, 阿里巴巴集团, 上海人工智能教育研究院期刊: EMNLP 2023日期: 2023-11-12 1 读后感大语言模型的功能主要包括知识能力和思维能力；现在我们越来越多发现模型训练再好也不可能容纳世界知识，幻觉问题再所难免。研究也更多转向模型的思维和解决问题的能力。小模型因其可以本地部署速度快，便于精调，方便验证，成本低而更受关注。这篇论文主要研究如何提升小模型的推理能力。文 ...