avatar
Articles
829
Tags
252
Categories
168

Yan 的杂物志_个人主页分享
Search
论文阅读_嵌入_中文嵌入资源
Created2024-06-28|2_Note0_Technic2_算法17_知识表示
1234567中文名:C-Pack:推进一般中文嵌入的打包资源英文名:C-Pack: Packaged Resources To Advance General Chinese Embedding最新版本:v4:12 May 2024资源下载:https://github.com/FlagOpen/FlagEmbedding,5.7k Star作者: Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, Jian-Yun Nie机构出处:北京人工智能研究院,抱抱脸,中国人民大学,中国科技大学,蒙特利尔大学,智源正文:7 页 读后感 这篇论文的核心是:通用的中文文本嵌入。 读完之后,会对中文嵌入的模型效果、模型架构、评测方法和训练数据有更直观的了解。文档风格简洁明了,行动导向。 文中介绍的 BGE 模型是 Obsidian 插件 Smart Connection 的默认嵌入模型。我使用过,效果不错,速度也很。 摘要 目标: 介绍了 C-Pack,这是一个显著推进通用中文嵌入领域的资源包。 方法: C-P ...
论文阅读_基本于文本嵌入的信息提取
Created2024-06-28|2_Note0_Technic2_算法17_知识表示
1234567英文名:Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data中文名:基于嵌入的检索,LLM 从非结构化数据中提取有效的农业信息地址: https://arxiv.org/abs/2308.03107时间:2023-08-06 (v1)作者:Ruoling Peng,  Kang Liu, Po Yang, Zhipeng Yuan, Shunbao Li机构:谢菲尔德大学正文:4 页半 1 读后感 本文讨论了在将文本文件结构化过程中遇到的一类问题:如何规范化具有一定规律但又不完全符合定式的文档。这篇文章偏重应用,包含了大量具体的实验和设计过程,而不是纸上谈兵。文章内容巧妙结合了一些知识,同时保持了通用性。 作者对相对通用的技术进行了限制优化,并应用于一个小的领域。此前需要复杂设计和编码才能完成的任务,现在全部由 LLM 实现。具体方法包括编写一些行业相关的提示词和后处理步骤,然后调用 LLM 将结构化文本转换为结构 ...
论文阅读_优化RAG系统的检索
Created2024-06-27|2_Note0_Technic2_算法17_知识表示
123456英文名称: The Power of Noise: Redefining Retrieval for RAG Systems中文名称: 噪声的力量:重新定义RAG系统的检索链接: https://arxiv.org/pdf/2401.14887.pdf作者: Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio Silvestri机构: 罗马大学, 以色列海法技术创新研究所, 比萨大学日期: 1 May 2024(v4) 1 读后感 在 RAG 系统中,检索和生成是独立进行的,使用的模型也不相同,检索和生成中任意一个部分效果不好都会影响最终结果。在检索部分,不一定必须使用稠密模型,因此作者考虑了密集和稀疏的情况;在生成部分,实验使用的是本地部署的较轻量级模型如 llama2 等,这也部分影响了效果。 作者的角度很有趣:查询所给出的答案可能是准确的、无关的或相关但 ...
使用OpenAI嵌入进行向量搜索:只需Lucene
Created2024-06-26|2_Note0_Technic2_算法17_知识表示
123456英文名称: Vector Search with OpenAI Embeddings: Lucene Is All You Need中文名称: 使用OpenAI嵌入进行向量搜索:只需Lucene链接: http://arxiv.org/abs/2308.14963v1作者: Jimmy Lin, Ronak Pradeep, Tommaso Teofili, Jasper Xian机构: 滑铁卢大学戴维·切里顿计算机科学学院, 罗马第三大学工程系日期: 2023-08-29 读后感 嵌入领域新旧技术的最大不同点在于存储的是稠密向量(深度学习)还是稀疏向量(统计),对于稠密和稀疏的搜索和索引技术完全不同,所以继深度学习模型成为热点后,向量数据库也成为热点。作者认为,针对 Lucene 框架做少量调整,使其支持稠密向量,并不失为一种简单经济的解决方案。 作者挑战了主流观点,通过实验证明,对于很多应用,使用 Lucene+HNSW 可以在不大改动 Lucene 的情况下,完美支持当前基于大模型的文本编码,无需附加的向量数据库。与当前主流方法相比,这种方法成本和复杂度更低。简单来说 ...
语言模型:文本表征&词嵌入技术调研
Created2024-06-23|2_Note0_Technic2_算法17_知识表示
1 文本表征 文本表征是自然语言处理中的关键部分,尤其在当前大模型快速发展的背景下。由于大模型存在知识有限、处理文本长度有限、保密要求和大模型幻觉等问题,结合外部数据显得尤为重要。 为了便于存储和检索,除了保存纯文本外,还需要将文本转换为数组形式,以实现模糊查找和上下文语义理解。这使得在不同应用场景下如何进行编码成为一个重要课题。 我最近在优化本地知识存储,调研了一些文本表征方法,包括:文本表征发展过程、相关中文资源、检索增强生成的优化方法、词向量与早期文本数据库工具结合,以及在信息提取、社交网络和电子商务领域中词嵌入的优化方法。共八个部分,将在之后的 8 天内在公众号连载。本文作为开篇,先给出收获和总结。(下文中 Embedding 与嵌入同义) 关键字:embedding-based retrieval,RAG,Information Retrieval 2 问题与解答 在调研之前,我一直有以下一些疑问。在研读过程中,我得到了答案和启发。以下是我目前的个人理解,可能并不完全正确。 2.1 问题一 本地知识库是否必须使用深度学习表示? 目前,知识表示的主要方法包括:基于规则的方法、统 ...
文本嵌入表示综述
Created2024-06-21|2_Note0_Technic2_算法17_知识表示
12345678英文名:A Survey of Text Representation and Embedding Techniques in NLP中文名:NLP 中文本表示和嵌入技术的调查地址: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10098736文章正文:24 页作者:RAJVARDHAN PATIL, SORIO BOIT, VENKAT GUDIVADA, JAGADEESH NANDIGAM机构:Grand Valley State University,East Carolina University出处:IEEE Access出版日期:网络出版日期 2023-02-22 读后感 这是一篇针对文本表示的综述性论文。相比之下,这篇论文的深浅度刚刚好,逻辑完整,详略得当,新旧技术兼具。文中提供了例子、表格和公式,但都很简单。我觉得作者有意避免晦涩难懂,试图用简单的语言把问题讲清楚。 调查涵盖了 1970 年代及以后的文本表示历史,从规则方法到统计方法,再到深度学习方法。列出了它们的表示形式、解决的问题、限制 ...
模型嵌入方法总结
Created2024-06-10|2_Note0_Technic2_算法6_自然语言Embedding
1 介绍 模型 Embedding 是一种将高维数据转换为低维向量的技术,通常用于自然语言处理和机器学习领域。比如在自然语言处理中,就是把一句或一段话转成一个多维向量。它能捕捉词汇或数据之间的语义关系。在词嵌入中,类似意义的词会被映射到相近的向量空间中。 Embedding 常常用于信息检索、文本分类、语义匹配等场景中。比如建立本地知识库时,一般会先将文本切分,再进行 Embedding,然后将其存储在向量数据库中,以便后续查找和使用。 2 方法 嵌入方法有很多种。比如,可以调用 OpenAI 提供的嵌入方法,这需要花钱;也可以使用 Ollama 方法调用本地嵌入模型,这需要在本地搭建 Ollama 服务;或者直接在程序中调用模型,无需依赖其它工具。 2.1 最简单的 Embedding 方法 在程序中直接使用模型生成嵌入 1234from sentence_transformers import SentenceTransformermodel = SentenceTransformer('uer/sbert-base-chinese-nli')sentences ...
django_验证用户身份
Created2024-06-10|2_Note0_Technic3_编程后端django
1 常用的用户验证方法 基本身份验证(Basic Authentication): 这是最简单的身份验证方式之一。客户端在请求头中包含用户名和密码的 Base64 编码 Token 身份验证: 使用 Token 身份验证,客户端在请求中提供一个令牌(token),服务器在收到请求后验证令牌的有效性。 OAuth 认证: OAuth 是一种流行的开放标准,用于授权第三方应用程序访问用户的数据。 JSON Web Token(JWT): JWT 是一种用于在网络应用之间安全传递声明的开放标准。JWT 由三部分组成:头部、载荷和签名。 SSL/TLS: 使用 SSL/TLS 加密协议来保护通信是保护 API 免受未经授权访问的重要手段之一,这也是常用的 Session/Cookie 方法。 2 选型 由于我的服务端基本已用 Django 写好,自带比较完善的用户管理,使用 Session/Cookie 方法,修改最小,理论上只需要在请求时设置 withCredentials 即可。 但由于我的前后端分离,且使用一个后端和多个前端的模式,因此产生了跨域请求问题。需要将 http 改为 ht ...
血糖变化与减肥研究
Created2024-05-29|2_Note0_Technic1_医学我的
结论先行:当我的血糖忽然减半时,我并没有感觉到任何不适。同理,吃多了血糖翻倍时也无感。噢对,吃嗨了可能会有点开心。 1 我的测试数据 最近断食减脂,经常半夜醒来并且感到非常烦躁。刷 B 站有一个医生小哥哥推荐减肥时检测血糖。刚好 618 促销,我就购买了一个动态血糖仪。这个血糖仪安装后可以连续使用半个月,每 4 分钟就测一次血糖,并且可以连接手机显示数据。或者可能我就是好奇吧。 昨天和前天轻断食,血糖低且平稳。今天我恢复了正常饮食,早上吃了三片丹麦曲奇,半片全麦面包,和一包速溶咖啡(含奶含糖),我的血糖升至 9.9。此时开始运动。一小时后,血糖下降至 4.9。 2 现象&分析 我也没想到血糖会变化得这么快,猜想可能是由于以下几个因素: 我在前两天控制了总摄入量并且选择了低 GI 食物,这让我的身体对糖分更加敏感。 早餐中的食物含糖量高,且升糖速度快,所以血糖迅速上升。 由于我吃得不多,吃完一个小时后,升糖的过程就变慢了。 当血糖上升到 9 以上,我的身体启动了降糖机制,比如开始分泌胰岛素。 运动骑行约一小时,平均心率 120+,也有助于降低血糖。 几个因素结合在一起,使血 ...
为啥现在用大模型这么便宜
Created2024-05-23|2_Note0_Technic0_工具GPT应用模型工具
1 引言 今年四五月,新模型不断发布。4.18 发布的是 Llama3,5.13 的 Gpt-4o,5.14 的 Gemini Flask 1.5。还有国内模型 5.7 发布 DeepSeek V2,5.15 的豆包模型,而且价格也越来越便宜。今天我们就来对比一下各家的性价比,以及降价背后的原因。 2 当前价格 240517 收集的数据对比如下,以各个版本的 ChatGPT 作为基准,按照 7 的汇率进行计算, Model Input Output gpt-4o $5.00 / 1M tokens $15.00 / 1M tokens gpt-4-turbo $10.00 / 1M tokens $30.00 / 1M tokens gpt-4 $30.00 / 1M tokens $60.00 / 1M tokens gpt-3.5-turbo-0125 $0.50 / 1M tokens $1.50 / 1M tokens gpt-3.5-turbo-instruct $1.50 / 1M tokens $2.00 / 1M tokens ...
1…161718…83
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
829
Tags
252
Categories
168
Follow Me
Announcement
This is my Blog
Recent Post
对谈_250610_抑郁2_少年的困境2025-07-07
对谈_250610_抑郁3_边缘叛逃者2025-07-07
对谈_250616_抑郁4_不合适的目标2025-07-07
对谈_250618_抑郁5_反刍2025-07-07
对谈_250530_钻空子2025-07-07
Categories
  • 0_IMO76
    • 工作1
    • 说给一个人听75
      • 01_自我建构29
        • 实修3
        • 思考与觉悟14
        • 行动与进化12
      • 02_情绪心理16
Tags
深度学习/扩散模型 知识管理 关系 禅宗 抑郁 健康 图形图像 关系反转 宗教 视频生成 驱动 开源项目 模型增强 大型语言模型 区块链 数学 社会学 移动开发 自然语言处理/BERT 语音 自我表达 技巧 价值观 技术 深度学习/工具 阅读心理学 深度学习/知识蒸馏 哲学 主题笔记 代码模型 心理建设 权力结构 编程语言/Java 后端测试 主观能动性 AI功能 算法实战 自然语言处理 代码生成 无代码开发
Archives
  • July 202520
  • June 202539
  • May 202530
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
Info
Article :
829
Total Count :
1147.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database