avatar
Articles
829
Tags
252
Categories
168

Yan 的杂物志_个人主页分享
Search
Navicat免费版评测
Created2024-08-07|2_Note0_Technic3_编程数据库
1 引子 之前切换成了支持词嵌入的 pgsql 版本,所以 Navicat 15 就不能用了。而且在 Linux 上使用 Navicat 也很麻烦。后来我换成了 dbeaver,虽然有些不适应,但功能都支持。 最近听说 Navicat 出了轻量级的免费版,而且可以在 Linux 下直接运行,于是就下载试试。 2 安装 2.1 下载 官网:https://www.navicat.com/en/products/navicat-premium-lite 在主页点击右上角的“Free Download”。 当前最新版本为:navicat17-premium-lite-en-x86_64.AppImage,这似乎是 navicat17 的一个衍生版,大小为 237M。 2.2 运行 直接运行即可 12$ chmod 777 navicat17-premium-lite-en-x86_64.AppImage$ ./navicat17-premium-lite-en-x86_64.AppImage 3 测试 我简单地测试了一下 pgsql: 界面是传统的 Navicat 界面,从易用性来看, ...
论文阅读_字节的语音生成模型_Seed-TTS
Created2024-07-17|2_Note3_Paper0_AITTS
12345678英文名称: Seed-TTS: A Family of High-Quality Versatile Speech Generation Models中文名称: Seed-TTS:高质量多功能语音生成模型系列链接: http://arxiv.org/abs/2406.02430v1代码: https://github.com/BytedanceSpeech/seed-tts-eval (评测工具)演示网站:https://bytedancespeech.github.io/seedtts_tech_report/作者: Seed Team机构: 字节跳动日期: 2024-06-04 摘要 目标:提出 Seed-TTS,一种大规模自回归文本转语音模型,主要用于生成几乎无法区分人类语音的语音。 方法:提出了自蒸馏方法用于语音因子分解,以及强化学习方法用于增强模型鲁棒性、说话者相似度和可控性。另外,提出了一种非自回归(NAR)变体 Seed-TTS_DiT,采用全扩散式架构。 结论:Seed-TTS 在说话者相似度和自然度方面表现出色,通过微调实现了更高的主观评分。Seed- ...
阿里开源的音频模型_原理与实操
Created2024-07-15|2_Note3_Paper0_AITTS
123456789英文名称: FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs中文名称: FunAudioLLM: 人与LLMs之间自然互动的语音理解和生成基础模型论文地址: http://arxiv.org/abs/2407.04051v3相关论文:https://fun-audio-llm.github.io/pdf/CosyVoice_v1.pdf代码: https://github.com/FunAudioLLM官网介绍:https://fun-audio-llm.github.io/作者: Tongyi SpeechTeam机构: 阿里巴巴集团,通义Speech团队日期: 2024-07-04 读后感 FunAudioLLM 工具集在 24 年 7 月初开源,核心包含两个语音模型:SenseVoice 和 CosyVoice。 模型(SenseVoice 和 CosyVoice)已在 Modelsco ...
ChatTTS使用方法/源码分析/评测/相关资源
Created2024-07-10|2_Note3_Paper0_AITTS
1 引言 5 月开源的 ChatTTS,最近文章十篇里有五篇以上都在讨论它。很多新的 TTS 模型也用它来做比较。感觉没用过 ChatTTS 都不敢评测其他的。 目前,ChatTTS 支持英文和中文。在 arxiv 上没找到相关论文,所以本文主要评测使用感受。 (下文仅代表个人观点) 2 主要资源 Github:  https://github.com/2noise/ChatTTS,目前 27.4K Star HuggingFace: https://huggingface.co/2Noise/ChatTTS 3 使用方法 3.1 安装 为了避免影响现有环境,我在 Docker 镜像中进行安装,选择了 PyTorch 官方提供的镜像。由于软件依赖于 PyTorch 2.1.0,版本要求较高,所以我下载了重新的 Docker 镜像。 12345678$ git clone https://github.com/2noise/ChatTTS.git$ docker pull pytorch/pytorch:2.1.0-cuda11.8-cudnn8-runtime$ nvidia-do ...
论文阅读_语义嵌入_电子商务搜索中的多阶段多粒度学习
Created2024-07-01|2_Note0_Technic2_算法17_知识表示
12345678英文名:Learning Multi-Stage Multi-Grained Semantic Embeddings for E-Commerce Search中文名:学习多阶段多粒度语义嵌入用于电子商务搜索时间:20 Mar 2023(v1)地址: https://arxiv.org/pdf/2303.11009作者:Binbin Wang, Mingming Li, Zhixiong Zeng, Jingwei Zhuo, Songlin Wang, Sulong Xu, Bo Long, Weipeng Yan机构:京东出处:ACM Web Conference 2023 会议论文正文:4 页 1 读后感 论文的使用场景是海量数据的电子商务搜索,目的是在十亿级语料库中找到相关项目,同时确保低延迟和计算成本。这项工作的痛点在于检索阶段需要整合多级信息。 当前的主流技术是基于嵌入的检索方法,采用双塔框架分别学习查询和项目的嵌入向量,从而利用高效的近似最近邻(ANN)搜索来检索相关项目。现有的搜索系统主要采用“检索 - 预排序 - 排名”的多阶段架构。这篇论文主要讨论检 ...
论文阅读_基于多模态嵌入的产品搜索
Created2024-06-30|2_Note0_Technic2_算法17_知识表示
12345678英文名:Que2Engage: Embedding-based Retrieval for Relevant and Engaging Products at Facebook Marketplace中文名:Que2Engage:基于嵌入的检索功能,在 Facebook Marketplace 上搜索相关且引人入胜的产品地址:https://arxiv.org/abs/2302.11052v1时间:21 Feb 2023(v1)作者:He Yunzhong and Tian Yuxin and Wang Mengjiao and Chen Feier and Yu Licheng and Tang Maolong and Chen Congcong and Zhang Ning and Kuang Bin and Prakash Arul机构:Meta,加州大学默塞德分校出处:会议:2023 年 ACM 网络会议的配套论文集正文:4 页 1 读后感 论文优化了 Facebook Marketplace 中的搜索功能。Facebook Marketplace 是一个电子商 ...
论文阅读_基于嵌入的Facebook搜索
Created2024-06-29|2_Note0_Technic2_算法17_知识表示
12345678英文名称:Embedding-based Retrieval in Facebook Search中文名称:基于嵌入式检索的Facebook搜索时间: Wed, 29 Jul 2020 (v2)地址:https://arxiv.org/abs/2006.11632作者:Jui-Ting Huang, Ashish Sharma, Shuying Sun, Li Xia, David Zhang, Philip Pronin, Janani Padmanabhan, Giuseppe Ottaviano, Linjun Yang机构:Facebook & Microsoft出处:会议论文,第26届 ACM SIGKDD 知识发现和数据挖掘会议论文集正文:8 页 读后感 Facebook 社交中的搜索与其它搜索不同,它可以基于上下文得到更多信息。 这里研究的是如何将传统搜索与基于向量的搜索结合在一起的具体方法。比较有启发的是提出的“统一嵌入模型”,在编码时加入了用户、上下文、位置等文本以外的信息,以便更好地定位和匹配。 另外,还考虑到每月活跃用户、最近发生的事件、热 ...
论文阅读_EMO_在弱条件下使用音频生成富有表现力的视频
Created2024-06-28|2_Note0_Technic2_算法16_视频生成
12345678英文名称: EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions中文名称: EMO:表情画像活跃 - 在弱条件下使用音频到视频扩散模型生成富有表现力的画像视频链接: https://arxiv.org/abs/2402.17485代码: https://github.com/HumanAIGC/EMO(不是源码,只有介绍)作者: Linrui Tian, Qi Wang, Bang Zhang, and Liefeng Bo机构: 阿里巴巴集团智能计算研究所日期: 2024-02-27引用次数: 18 读后感 论文实现了使用扩散模型生成视频。输入是一张人像和音频文件,输出是音频对应的此人的说话视频。该功能已集成到通义千问中,输入“全民唱演/舞王”即可试用。除了真人动画,还能生成动画人物的视频。 相较于之前的方法,它不仅能控制嘴部动作,还能控制头部和表情的微妙变化。其架构也相对简单,它再 ...
论文阅读_VLOGGER_图片+声音->生成视频
Created2024-06-28|2_Note0_Technic2_算法16_视频生成
1234567英文名称: VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis中文名称: VLOGGER:多模态扩散用于具象化化身合成链接: http://arxiv.org/abs/2403.08764v1视频展示:https://enriccorona.github.io/vlogger/作者: Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu机构: 谷歌研究日期: 2024-03-13 读后感 这是 Google Research 3 月份的一篇论文,主题是条件化视频生成。文中提出了 VLOGGER 模型,一种从图像和音频生成可变长度视频的方法,支持头部运动、凝视、眨眼、嘴唇及手部运动。VLOGGER 基于生成扩散模型,不需要对每个人单独进行培训,也不依赖面部检测和裁剪,能够生成完整的图像(不仅仅是面部或嘴唇),并考虑了广泛的场景(例如可见的躯干 ...
论文阅读_视频编辑中基于音频的唇部同步技术
Created2024-06-28|2_Note0_Technic2_算法16_视频生成
12345678英文名称: VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild中文名称: 野外视频编辑中基于音频的唇部同步技术链接: http://arxiv.org/abs/2211.14758v1代码: https://github.com/OpenTalker/video-retalking作者: KUN CHENG, XIAODONG CUN, YONG ZHANG, MENGHAN XIA, FEI YIN, MINGRUI ZHU, XUAN WANG, JUE WANG, NANNAN WANG出处:SIGGRAPH Asia 2022 会议论文机构: 西安电子科技大学, 腾讯人工智能实验室, 清华大学日期: 2022-11-27 |200 读后感 论文题目中的 in the wild 指的是非实验室的场景,应用在更为广泛的现实领域。 这两年出了更好的模型,但都没有开源,只能试用或者看看展示视频。这个模型好在可以直接下载使用。 1234p ...
1…151617…83
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
829
Tags
252
Categories
168
Follow Me
Announcement
This is my Blog
Recent Post
对谈_250610_抑郁2_少年的困境2025-07-07
对谈_250610_抑郁3_边缘叛逃者2025-07-07
对谈_250616_抑郁4_不合适的目标2025-07-07
对谈_250618_抑郁5_反刍2025-07-07
对谈_250530_钻空子2025-07-07
Categories
  • 0_IMO76
    • 工作1
    • 说给一个人听75
      • 01_自我建构29
        • 实修3
        • 思考与觉悟14
        • 行动与进化12
      • 02_情绪心理16
Tags
自动化 知识图/知识图谱 心理建设 自我剖析 代码生成 Python/数据 量化回测 远视镜 关系维护 翻译 远程桌面 无代码开发 自然语言处理/BERT 生活技巧 世界观 推荐系统 开源项目 特征工程 操作系统/Linux 笔记工具 CentOS 模型转换 情绪表达 社会 决策哲学 阅读/社会学 Python/少儿编程 AI功能 自然语言处理/工具 Android/theme 数据安全 编程语言/JNI 笔记 美食 医学 Python/图形图像 情绪管理 插件推荐 舞台感 概率
Archives
  • July 202520
  • June 202539
  • May 202530
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
Info
Article :
829
Total Count :
1147.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database