Yan 的杂物志_个人主页分享

Created2024-06-23|2_Note0_Technic2_算法17_知识表示

1 文本表征文本表征是自然语言处理中的关键部分，尤其在当前大模型快速发展的背景下。由于大模型存在知识有限、处理文本长度有限、保密要求和大模型幻觉等问题，结合外部数据显得尤为重要。为了便于存储和检索，除了保存纯文本外，还需要将文本转换为数组形式，以实现模糊查找和上下文语义理解。这使得在不同应用场景下如何进行编码成为一个重要课题。我最近在优化本地知识存储，调研了一些文本表征方法，包括：文本表征发展过程、相关中文资源、检索增强生成的优化方法、词向量与早期文本数据库工具结合，以及在信息提取、社交网络和电子商务领域中词嵌入的优化方法。共八个部分，将在之后的 8 天内在公众号连载。本文作为开篇，先给出收获和总结。(下文中 Embedding 与嵌入同义) 关键字：embedding-based retrieval，RAG，Information Retrieval 2 问题与解答在调研之前，我一直有以下一些疑问。在研读过程中，我得到了答案和启发。以下是我目前的个人理解，可能并不完全正确。 2.1 问题一本地知识库是否必须使用深度学习表示？目前，知识表示的主要方法包括：基于规则的方法、统 ...

文本嵌入表示综述

Created2024-06-21|2_Note0_Technic2_算法17_知识表示

12345678英文名：A Survey of Text Representation and Embedding Techniques in NLP中文名：NLP 中文本表示和嵌入技术的调查地址: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10098736文章正文：24 页作者：RAJVARDHAN PATIL, SORIO BOIT, VENKAT GUDIVADA, JAGADEESH NANDIGAM机构：Grand Valley State University，East Carolina University出处：IEEE Access出版日期：网络出版日期 2023-02-22 读后感这是一篇针对文本表示的综述性论文。相比之下，这篇论文的深浅度刚刚好，逻辑完整，详略得当，新旧技术兼具。文中提供了例子、表格和公式，但都很简单。我觉得作者有意避免晦涩难懂，试图用简单的语言把问题讲清楚。调查涵盖了 1970 年代及以后的文本表示历史，从规则方法到统计方法，再到深度学习方法。列出了它们的表示形式、解决的问题、限制 ...

模型嵌入方法总结

Created2024-06-10|2_Note0_Technic2_算法6_自然语言Embedding

1 介绍模型 Embedding 是一种将高维数据转换为低维向量的技术，通常用于自然语言处理和机器学习领域。比如在自然语言处理中，就是把一句或一段话转成一个多维向量。它能捕捉词汇或数据之间的语义关系。在词嵌入中，类似意义的词会被映射到相近的向量空间中。 Embedding 常常用于信息检索、文本分类、语义匹配等场景中。比如建立本地知识库时，一般会先将文本切分，再进行 Embedding，然后将其存储在向量数据库中，以便后续查找和使用。 2 方法嵌入方法有很多种。比如，可以调用 OpenAI 提供的嵌入方法，这需要花钱；也可以使用 Ollama 方法调用本地嵌入模型，这需要在本地搭建 Ollama 服务；或者直接在程序中调用模型，无需依赖其它工具。 2.1 最简单的 Embedding 方法在程序中直接使用模型生成嵌入 1234from sentence_transformers import SentenceTransformermodel = SentenceTransformer('uer/sbert-base-chinese-nli')sentences ...

django_验证用户身份

Created2024-06-10|2_Note0_Technic3_编程后端django

1 常用的用户验证方法基本身份验证（Basic Authentication）: 这是最简单的身份验证方式之一。客户端在请求头中包含用户名和密码的 Base64 编码 Token 身份验证: 使用 Token 身份验证，客户端在请求中提供一个令牌（token），服务器在收到请求后验证令牌的有效性。 OAuth 认证: OAuth 是一种流行的开放标准，用于授权第三方应用程序访问用户的数据。 JSON Web Token（JWT）: JWT 是一种用于在网络应用之间安全传递声明的开放标准。JWT 由三部分组成：头部、载荷和签名。 SSL/TLS: 使用 SSL/TLS 加密协议来保护通信是保护 API 免受未经授权访问的重要手段之一，这也是常用的 Session/Cookie 方法。 2 选型由于我的服务端基本已用 Django 写好，自带比较完善的用户管理，使用 Session/Cookie 方法，修改最小，理论上只需要在请求时设置 withCredentials 即可。但由于我的前后端分离，且使用一个后端和多个前端的模式，因此产生了跨域请求问题。需要将 http 改为 ht ...

血糖变化与减肥研究

Created2024-05-29|2_Note0_Technic1_医学我的

结论先行：当我的血糖忽然减半时，我并没有感觉到任何不适。同理，吃多了血糖翻倍时也无感。噢对，吃嗨了可能会有点开心。 1 我的测试数据最近断食减脂，经常半夜醒来并且感到非常烦躁。刷 B 站有一个医生小哥哥推荐减肥时检测血糖。刚好 618 促销，我就购买了一个动态血糖仪。这个血糖仪安装后可以连续使用半个月，每 4 分钟就测一次血糖，并且可以连接手机显示数据。或者可能我就是好奇吧。昨天和前天轻断食，血糖低且平稳。今天我恢复了正常饮食，早上吃了三片丹麦曲奇，半片全麦面包，和一包速溶咖啡（含奶含糖），我的血糖升至 9.9。此时开始运动。一小时后，血糖下降至 4.9。 2 现象&分析我也没想到血糖会变化得这么快，猜想可能是由于以下几个因素：我在前两天控制了总摄入量并且选择了低 GI 食物，这让我的身体对糖分更加敏感。早餐中的食物含糖量高，且升糖速度快，所以血糖迅速上升。由于我吃得不多，吃完一个小时后，升糖的过程就变慢了。当血糖上升到 9 以上，我的身体启动了降糖机制，比如开始分泌胰岛素。运动骑行约一小时，平均心率 120+，也有助于降低血糖。几个因素结合在一起，使血 ...

为啥现在用大模型这么便宜

Created2024-05-23|2_Note0_Technic0_工具GPT应用模型工具

1 引言今年四五月，新模型不断发布。4.18 发布的是 Llama3，5.13 的 Gpt-4o，5.14 的 Gemini Flask 1.5。还有国内模型 5.7 发布 DeepSeek V2，5.15 的豆包模型，而且价格也越来越便宜。今天我们就来对比一下各家的性价比，以及降价背后的原因。 2 当前价格 240517 收集的数据对比如下，以各个版本的 ChatGPT 作为基准，按照 7 的汇率进行计算， Model Input Output gpt-4o $5.00 / 1M tokens $15.00 / 1M tokens gpt-4-turbo $10.00 / 1M tokens $30.00 / 1M tokens gpt-4 $30.00 / 1M tokens $60.00 / 1M tokens gpt-3.5-turbo-0125 $0.50 / 1M tokens $1.50 / 1M tokens gpt-3.5-turbo-instruct $1.50 / 1M tokens $2.00 / 1M tokens ...

DBeaver使用指南

Created2024-05-20|2_Note0_Technic3_编程数据库

源码地址：https://github.com/dbeaver/dbeaver 安装官网下载 https://dbeaver.io/download/ 启动 1$ dbeaver 复制表内容选被复制的表 ->导入数据 ->选择输入对象 ->选源表 ->下一步/继续看 DDL 信息打开表属性选项卡的左下方按 DDL

FreeGPT3.5部署指南

Created2024-05-19|2_Note0_Technic0_工具GPT应用模型工具

源码地址：https://github.com/missuo/FreeGPT35 建议在位于美国的服务器上设置环境，其中 image 大约需要 150G 的空间。 1docker run --rm -p 3344:3040 -d ghcr.io/missuo/freegpt35 试连接 12345678910curl http://127.0.0.1:3344/v1/chat/completions -H "Content-Type: application/json" -H "Authorization: Bearer any_string_you_like" -d '{ "model": "gpt-3.5-turbo", "messages": [ { "role": "user", "content ...

论文阅读_大模型优化_YOCO架构

Created2024-05-16|2_Note0_Technic2_算法11_优化

123456英文名称: You Only Cache Once: Decoder-Decoder Architectures for Language Models中文名称: 只缓存一次：用于语言模型的解码器-解码器架构链接: http://arxiv.org/abs/2405.05254v2作者: Yutao Sun, Li Dong, Yi Zhu, Shaohan Huang, Wenhui Wang, Shuming Ma, Quanlu Zhang, Jianyong Wang, Furu Wei机构: 微软研究院, 清华大学日期: 2024-05-08 读后感这篇论文介绍了一种大模型优化的方法。并非专为某个特定的模型设计，而是可以用来优化当前大多数的大模型。该方法在 GPU 内存的使用和模型生成的速度上都有显著的改善。在 Transformer 方法中，存储 Attention 的 KV 值占用了大量的资源。目前已有许多针对此问题的优化方法，这篇论文也是其中之一。其主要思想是重复利用 KV 缓存。其核心是对 Decoder-Decoder 架构的改进，并不复杂，可以与其 ...

基于解码器的时间序列预测基础模型

Created2024-05-16|2_Note0_Technic2_算法9_时序

12345678英文名称: A DECODER-ONLY FOUNDATION MODEL FOR TIME-SERIES FORECASTING中文名称: 基于解码器的时间序列预测基础模型链接: http://arxiv.org/abs/2310.10688v4代码: https://github.com/google-research/timesfm作者: Abhimanyu Das, Weihao Kong, Rajat Sen, Yichen Zhou机构: 谷歌研究日期: 2023-10-14 摘要目标：基于大型语言模型在自然语言处理中的进展，设计一个用于预测的时间序列基础模型。方法：基于对大型时间序列语料库进行预训练的修补解码器风格注意力模型。结论：该模型在多个公共数据集上的开箱即用零射击性能接近各个数据集的最先进监督预测模型的准确性。能够很好地适用于不同的预测历史长度、预测长度和时间粒度。读后感这是一个单变量预测工具，我觉得只是验证了一种可能性，实用性不是很强。其基础模型参数大小为 200M，预训练数据大小为 100B。该工具的零样本性能可以与全监督方法在处 ...