avatar
Articles
806
Tags
240
Categories
164

Yan 的杂物志_个人主页分享
Search
论文阅读_语义嵌入_电子商务搜索中的多阶段多粒度学习
Created2024-07-01|2_Note0_Technic2_算法17_知识表示
12345678英文名:Learning Multi-Stage Multi-Grained Semantic Embeddings for E-Commerce Search中文名:学习多阶段多粒度语义嵌入用于电子商务搜索时间:20 Mar 2023(v1)地址: https://arxiv.org/pdf/2303.11009作者:Binbin Wang, Mingming Li, Zhixiong Zeng, Jingwei Zhuo, Songlin Wang, Sulong Xu, Bo Long, Weipeng Yan机构:京东出处:ACM Web Conference 2023 会议论文正文:4 页 1 读后感 论文的使用场景是海量数据的电子商务搜索,目的是在十亿级语料库中找到相关项目,同时确保低延迟和计算成本。这项工作的痛点在于检索阶段需要整合多级信息。 当前的主流技术是基于嵌入的检索方法,采用双塔框架分别学习查询和项目的嵌入向量,从而利用高效的近似最近邻(ANN)搜索来检索相关项目。现有的搜索系统主要采用“检索 - 预排序 - 排名”的多阶段架构。这篇论文主要讨论检 ...
论文阅读_基于多模态嵌入的产品搜索
Created2024-06-30|2_Note0_Technic2_算法17_知识表示
12345678英文名:Que2Engage: Embedding-based Retrieval for Relevant and Engaging Products at Facebook Marketplace中文名:Que2Engage:基于嵌入的检索功能,在 Facebook Marketplace 上搜索相关且引人入胜的产品地址:https://arxiv.org/abs/2302.11052v1时间:21 Feb 2023(v1)作者:He Yunzhong and Tian Yuxin and Wang Mengjiao and Chen Feier and Yu Licheng and Tang Maolong and Chen Congcong and Zhang Ning and Kuang Bin and Prakash Arul机构:Meta,加州大学默塞德分校出处:会议:2023 年 ACM 网络会议的配套论文集正文:4 页 1 读后感 论文优化了 Facebook Marketplace 中的搜索功能。Facebook Marketplace 是一个电子商 ...
论文阅读_基于嵌入的Facebook搜索
Created2024-06-29|2_Note0_Technic2_算法17_知识表示
12345678英文名称:Embedding-based Retrieval in Facebook Search中文名称:基于嵌入式检索的Facebook搜索时间: Wed, 29 Jul 2020 (v2)地址:https://arxiv.org/abs/2006.11632作者:Jui-Ting Huang, Ashish Sharma, Shuying Sun, Li Xia, David Zhang, Philip Pronin, Janani Padmanabhan, Giuseppe Ottaviano, Linjun Yang机构:Facebook & Microsoft出处:会议论文,第26届 ACM SIGKDD 知识发现和数据挖掘会议论文集正文:8 页 读后感 Facebook 社交中的搜索与其它搜索不同,它可以基于上下文得到更多信息。 这里研究的是如何将传统搜索与基于向量的搜索结合在一起的具体方法。比较有启发的是提出的“统一嵌入模型”,在编码时加入了用户、上下文、位置等文本以外的信息,以便更好地定位和匹配。 另外,还考虑到每月活跃用户、最近发生的事件、热 ...
论文阅读_EMO_在弱条件下使用音频生成富有表现力的视频
Created2024-06-28|2_Note0_Technic2_算法16_视频生成
12345678英文名称: EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions中文名称: EMO:表情画像活跃 - 在弱条件下使用音频到视频扩散模型生成富有表现力的画像视频链接: https://arxiv.org/abs/2402.17485代码: https://github.com/HumanAIGC/EMO(不是源码,只有介绍)作者: Linrui Tian, Qi Wang, Bang Zhang, and Liefeng Bo机构: 阿里巴巴集团智能计算研究所日期: 2024-02-27引用次数: 18 读后感 论文实现了使用扩散模型生成视频。输入是一张人像和音频文件,输出是音频对应的此人的说话视频。该功能已集成到通义千问中,输入“全民唱演/舞王”即可试用。除了真人动画,还能生成动画人物的视频。 相较于之前的方法,它不仅能控制嘴部动作,还能控制头部和表情的微妙变化。其架构也相对简单,它再 ...
论文阅读_VLOGGER_图片+声音->生成视频
Created2024-06-28|2_Note0_Technic2_算法16_视频生成
1234567英文名称: VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis中文名称: VLOGGER:多模态扩散用于具象化化身合成链接: http://arxiv.org/abs/2403.08764v1视频展示:https://enriccorona.github.io/vlogger/作者: Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu机构: 谷歌研究日期: 2024-03-13 读后感 这是 Google Research 3 月份的一篇论文,主题是条件化视频生成。文中提出了 VLOGGER 模型,一种从图像和音频生成可变长度视频的方法,支持头部运动、凝视、眨眼、嘴唇及手部运动。VLOGGER 基于生成扩散模型,不需要对每个人单独进行培训,也不依赖面部检测和裁剪,能够生成完整的图像(不仅仅是面部或嘴唇),并考虑了广泛的场景(例如可见的躯干 ...
论文阅读_视频编辑中基于音频的唇部同步技术
Created2024-06-28|2_Note0_Technic2_算法16_视频生成
12345678英文名称: VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild中文名称: 野外视频编辑中基于音频的唇部同步技术链接: http://arxiv.org/abs/2211.14758v1代码: https://github.com/OpenTalker/video-retalking作者: KUN CHENG, XIAODONG CUN, YONG ZHANG, MENGHAN XIA, FEI YIN, MINGRUI ZHU, XUAN WANG, JUE WANG, NANNAN WANG出处:SIGGRAPH Asia 2022 会议论文机构: 西安电子科技大学, 腾讯人工智能实验室, 清华大学日期: 2022-11-27 |200 读后感 论文题目中的 in the wild 指的是非实验室的场景,应用在更为广泛的现实领域。 这两年出了更好的模型,但都没有开源,只能试用或者看看展示视频。这个模型好在可以直接下载使用。 1234p ...
论文阅读_嵌入_中文嵌入资源
Created2024-06-28|2_Note0_Technic2_算法17_知识表示
1234567中文名:C-Pack:推进一般中文嵌入的打包资源英文名:C-Pack: Packaged Resources To Advance General Chinese Embedding最新版本:v4:12 May 2024资源下载:https://github.com/FlagOpen/FlagEmbedding,5.7k Star作者: Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, Jian-Yun Nie机构出处:北京人工智能研究院,抱抱脸,中国人民大学,中国科技大学,蒙特利尔大学,智源正文:7 页 读后感 这篇论文的核心是:通用的中文文本嵌入。 读完之后,会对中文嵌入的模型效果、模型架构、评测方法和训练数据有更直观的了解。文档风格简洁明了,行动导向。 文中介绍的 BGE 模型是 Obsidian 插件 Smart Connection 的默认嵌入模型。我使用过,效果不错,速度也很。 摘要 目标: 介绍了 C-Pack,这是一个显著推进通用中文嵌入领域的资源包。 方法: C-P ...
论文阅读_基本于文本嵌入的信息提取
Created2024-06-28|2_Note0_Technic2_算法17_知识表示
1234567英文名:Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data中文名:基于嵌入的检索,LLM 从非结构化数据中提取有效的农业信息地址: https://arxiv.org/abs/2308.03107时间:2023-08-06 (v1)作者:Ruoling Peng,  Kang Liu, Po Yang, Zhipeng Yuan, Shunbao Li机构:谢菲尔德大学正文:4 页半 1 读后感 本文讨论了在将文本文件结构化过程中遇到的一类问题:如何规范化具有一定规律但又不完全符合定式的文档。这篇文章偏重应用,包含了大量具体的实验和设计过程,而不是纸上谈兵。文章内容巧妙结合了一些知识,同时保持了通用性。 作者对相对通用的技术进行了限制优化,并应用于一个小的领域。此前需要复杂设计和编码才能完成的任务,现在全部由 LLM 实现。具体方法包括编写一些行业相关的提示词和后处理步骤,然后调用 LLM 将结构化文本转换为结构 ...
论文阅读_优化RAG系统的检索
Created2024-06-27|2_Note0_Technic2_算法17_知识表示
123456英文名称: The Power of Noise: Redefining Retrieval for RAG Systems中文名称: 噪声的力量:重新定义RAG系统的检索链接: https://arxiv.org/pdf/2401.14887.pdf作者: Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio Silvestri机构: 罗马大学, 以色列海法技术创新研究所, 比萨大学日期: 1 May 2024(v4) 1 读后感 在 RAG 系统中,检索和生成是独立进行的,使用的模型也不相同,检索和生成中任意一个部分效果不好都会影响最终结果。在检索部分,不一定必须使用稠密模型,因此作者考虑了密集和稀疏的情况;在生成部分,实验使用的是本地部署的较轻量级模型如 llama2 等,这也部分影响了效果。 作者的角度很有趣:查询所给出的答案可能是准确的、无关的或相关但 ...
使用OpenAI嵌入进行向量搜索:只需Lucene
Created2024-06-26|2_Note0_Technic2_算法17_知识表示
123456英文名称: Vector Search with OpenAI Embeddings: Lucene Is All You Need中文名称: 使用OpenAI嵌入进行向量搜索:只需Lucene链接: http://arxiv.org/abs/2308.14963v1作者: Jimmy Lin, Ronak Pradeep, Tommaso Teofili, Jasper Xian机构: 滑铁卢大学戴维·切里顿计算机科学学院, 罗马第三大学工程系日期: 2023-08-29 读后感 嵌入领域新旧技术的最大不同点在于存储的是稠密向量(深度学习)还是稀疏向量(统计),对于稠密和稀疏的搜索和索引技术完全不同,所以继深度学习模型成为热点后,向量数据库也成为热点。作者认为,针对 Lucene 框架做少量调整,使其支持稠密向量,并不失为一种简单经济的解决方案。 作者挑战了主流观点,通过实验证明,对于很多应用,使用 Lucene+HNSW 可以在不大改动 Lucene 的情况下,完美支持当前基于大模型的文本编码,无需附加的向量数据库。与当前主流方法相比,这种方法成本和复杂度更低。简单来说 ...
1…131415…81
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
806
Tags
240
Categories
164
Follow Me
Announcement
This is my Blog
Recent Post
250523_对谈_用叙事打磨世界观2025-05-23
250512_对谈_股票操作中的概率与心理2025-05-21
250520_对谈_最近发展区理论与实践2025-05-21
论文阅读_现实的叙事构建2025-05-21
2505xx_对谈_家长的角色22025-05-20
Categories
  • 0_IMO54
    • 工作1
    • 说给一个人听53
      • 01_自我建构21
        • 思考与觉悟11
        • 行动与进化10
      • 02_情绪心理12
      • 03_关系互动9
Tags
开源项目 模型解释 android 后端 关系反转 Web服务 情感 嵌入技术 编程 价值观 模型优化 工作思考 自我构建 开发 菜谱 Arduino 性能 戏剧中的心理真实 远视镜 阅读/经济学 自动化 音频处理 音视频处理 操作系统/Linux 目标管理 咖啡拉花 艺术 自我表达 Pytorch 思维整理 自动驾驶 奖励机制 操作系统 阅读/哲学 网络 深度学习/工具 阅读/育儿 机器学习/自动建模 阅读哲学 Obsidian
Archives
  • May 202565
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
  • November 20246
  • October 20244
Info
Article :
806
Total Count :
1095.3k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database