Yan 的杂物志_个人主页分享

Created2024-05-11|2_Note0_Technic0_工具GPT应用模型工具

1 引言本文将介绍 ollama+llama3 的最基本的安装和使用方法。只要你的 GPU 和 Docker 环境可用，基本上只需不超过五行的命令就能完成（实际上可能只需要一行）。使用 ollama 安装 llama3 比预期中要方便得多。项目地址：https://github.com/ollama/ollama 65.5K Star 2 Docker 安装 1$ docker pull ollama/ollama 镜像大小约 438M，不包含 Python&Torch 环境，所以很省空间。 123$ docker run --rm -d -e OLLAMA_ORIGINS="app://obsidian.md*" --gpus=all -v /exports/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama$ docker exec -it ollama bash$ ollama run llama3 在初次使用时，会下载模型，大约需要 4.7G 的存储空间，这可能是量化版本 ...

现代语音合成技术应用

Created2024-05-10|2_Note3_Paper0_AITTS

TTS 已看阿里的 CosyVoice pass 论文阅读_语音合成_CosyVoice ChatTTS pass 开源项目_语音合成_ChatTTS FishTTS pass 字节 Seed-TTS 论文阅读_语音合成_Seed TTS 其它 ToucanTTS 支持多达7000种语言 github.com/DigitalPhonetics/IMS-Toucan 官网：toucantts.com 评价：中文比较机器声音频神级开源工具AudioCraft 音频工具集 MARS5-TTS https://github.com/camb-ai/mars5-tts 2.2K Star 140+ languages 主打声音克隆可用 docker 部署试用：https://6b1a3a8e53ae.ngrok.app/ 我在 demo 界面，试了下中文，提示不能识别字符，没部署未看 OpenVoice 最近，由于深度学习在语音特征提取方面的应用，以及大型语言模型对语义理解的加强，许多语音合成技术已经达到了以假乱真的效果。使用场景语音合成常在以下几种 ...

论文阅读_管理模型的记忆_MemGPT

Created2024-05-09|2_Note0_Technic2_算法7_模型增强RAG

123456789英文名称: MemGPT: Towards LLMs as Operating Systems中文名称: MemGPT：将LLMs打造成操作系统链接: https://arxiv.org/abs/2310.08560代码: https://github.com/cpacker/MemGPT作者: Charles Packer, Sarah Wooders, Kevin Lin, Vivian Fang, Shishir G. Patil, Ion Stoica, Joseph E. Gonzalez机构: 加州大学伯克利分校日期: 2023-10-12引用次数: 37 1 摘要目的：解决大型语言模型在处理长对话和文档分析等任务时受到有限上下文窗口限制的问题。方法：提出了一种名为虚拟上下文管理的新技术，该技术受到了传统操作系统中分层内存系统的启发，通过在物理内存和硬盘之间进行分页，提供了扩展虚拟内存的假象。结果：在文档分析和多次会话聊天这两个领域，证明了设计的有效性，MemGPT 能够分析远超过 LLM 上下文窗口的大型文档，并能创建能够记忆、反思并通过与用户的 ...

大型语言模型作为优化器

Created2024-04-30|2_Note0_Technic2_算法7_模型增强Prompt

1234567英文名称: LARGE LANGUAGE MODELS AS OPTIMIZERS中文名称: 大型语言模型作为优化器链接: http://arxiv.org/abs/2309.03409v3代码: https://github.com/google-deepmind/opro作者: Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen机构: 谷歌, Google DeepMind日期: 2023-09-07 摘要目标：提出一种名为 OPRO 的优化方法，利用大型语言模型作为优化器，通过自然语言描述优化任务。方法：在每个优化步骤中，LLM 从包含先前生成的解及其值的提示中生成新解，然后评估并将新解添加到下一个优化步骤的提示中。结论：OPRO 在线性回归和旅行推销员问题上展示了其效果，最终在任务准确性最大化方面优于人工设计的提示。在 GSM8K 上，OPRO 优化的最佳提示比人工设计的提示提高了高达 8%，在 Big-Bench Hard 任务上提 ...

退一步：通过唤起推理

Created2024-04-30|2_Note0_Technic2_算法7_模型增强Prompt

12345678英文名称: TAKE A STEP BACK: EVOKING REASONING VIA ABSTRACTION IN LARGE LANGUAGE MODELS中文名称: 退一步：通过抽象激发大型语言模型中的推理链接: http://arxiv.org/abs/2310.06117v2代码: https://github.com/langchain-ai/langchain/blob/master/cookbook/stepback-qa.ipynb作者: Huaixiu Steven Zheng∗, Swaroop Mishra∗, Xinyun Chen, Heng-Tze Cheng, Ed H. Chi, Quoc V Le, Denny Zhou机构: Google DeepMind日期: 2023-10-09引用次数: 12 摘要目标：提出一种简单提示技术 Step-Back Prompting，鼓励模型在处理问题之前先进行抽象化，即从具体实例中提取出高层次的概念和原则，然后再用这些概念和原则来指导后续的推理过程。方法：主要分为两个步骤，抽象：提出 ...

论文阅读_RAG融合现有知识树_T-RAG

Created2024-04-30|2_Note0_Technic2_算法7_模型增强RAG

1234567英文名称: T-RAG: LESSONS FROM THE LLM TRENCHES中文名称: T-RAG：来自LLM战壕的经验教训链接: https://arxiv.org/abs/2402.07483作者: Masoomali Fatehkia, Ji Kim Lucas, Sanjay Chawla机构: 卡塔尔计算研究所, 哈马德·本·哈利法大学日期: 2024-02-12引用次数: 0 1 摘要目标：开发一个可以安全、高效地回答私有企业文档问题的大型语言模型（LLM）应用程序，主要考虑数据安全性、有限的计算资源以及需要健壮的应用程序来正确响应查询。方法：应用程序结合了检索增强生成（RAG）和微调的开源 LLM，将其称之为 Tree-RAG（T-RAG）。T-RAG 使用树结构来表示组织内的实体层次结构，用于生成文本描述，以增强对组织层次结构内的实体进行查询时的上下文。结果：我们的评估显示，这种结合表现优于简单的 RAG 或微调实现。最后，根据构建实际应用的 LLM 的经验，分享了一些获得的教训。 2 读后感这篇文章的创新点逻辑比较简单：除了基本的 R ...

立场论文：代理人人工智能走向整体智能

Created2024-04-30|2_Note0_Technic2_算法7_模型增强AgentAgent论文

1234567英文名称: Position Paper: Agent AI Towards a Holistic Intelligence中文名称: 立场论文：Agent人工智能走向整体智能链接: http://arxiv.org/abs/2403.00833v1代码: 作者: Qiuyuan Huang, Naoki Wake, Bidipta Sarkar, Zane Durante, Ran Gong, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Noboru Kuno, Ade Famoti, Ashley Llorens, John Langford, Hoi Vo, Li Fei-Fei, Katsu Ikeuchi, Jianfeng Gao机构: 微软研究核心,雷德蒙德,微软应用机器人研究,雷德蒙德,斯坦福大学,加州大学洛杉矶分校,微软游戏美国,MSR加速器,MSR人工智能前沿,纽约日期: 2024-02-28 读后感这是一篇立场论文（Position Paper），主要阐述作者对某个问题的观点和立场，并提出充分的理由 ...

论文阅读_图结构Agent和自我进化_AgentKit

Created2024-04-30|2_Note0_Technic2_算法7_模型增强AgentAgent论文

12345678英文名称: AgentKit: Flow Engineering with Graphs, not Coding中文名称: AgentKit：使用图而非编码进行流程工程链接: https://arxiv.org/pdf/2404.11483.pdf代码: https://github.com/holmeswww/AgentKit作者: Yue Wu, Yewen Fan, So Yeon Min, Shrimai Prabhumoye, Stephen McAleer, Yonatan Bisk, Ruslan Salakhutdinov, Yuanzhi Li, Tom Mitchell机构: 卡内基梅隆大学, NVIDIA, 微软, 波士顿大学日期: 2024-04-17引用次数: 80 1 摘要目标：提出了 LLM 提示框架 AgentKit，用于构建能通过自然语言提示进行复杂“思考过程”的多功能代理。方法：AgentKit 使用节点作为基本构建块，每个节点包含一个特定子任务的自然语言提示。用户可以将这些节点像乐高积木一样堆叠起来，形成一个复杂的思考过程。 ...

长上下文检索性能测试

Created2024-04-23|2_Note0_Technic2_算法6_自然语言

1 大海捞针测试 NeedleInAHaystack 项目地址：https://github.com/gkamradt/LLMTest_NeedleInAHaystack 功能：测试长上下文 LLMs 的上下文检索能力。中文介绍：https://www.zhihu.com/question/624512303 2 原理将一个随机的事实或陈述（“针”）放在一个长上下文窗口（“大海捞针”）的中间要求模型检索此语句遍历各种文档深度（指针放置位置）和上下文长度以衡量性能 3 多针检索加推理测试评测需要检索多个事实并在此基础上进行推理的应用。主要结果：当要求模型检索更多的事实时，其性能会下降。当模型需要对检索到的事实进行推理时，性能也会下降。随着提供给模型的上下文信息量的增加，性能也会下降；随着上下文长度的增加，模型在文档开头的检索失败。 |500

CAMEL：大型语言模型社会的“心智”探索沟通代理

Created2024-04-23|2_Note0_Technic2_算法7_模型增强AgentAgent论文

12345678英文名称: CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society中文名称: CAMEL：大型语言模型社会的“心智”探索沟通代理链接: https://arxiv.org/pdf/2303.17760.pdf代码: https://github.com/camel-ai/camel 4.4K Star作者: Guohao Li（李国豪）, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin, Bernard Ghanem机构: 沙特阿拉伯阿卜杜拉国王科技大学日期: 2023-03-31引用次数: 56 1 读后感以往的工作流程主要通过人与 LLM 的交互来控制。文中作者使用一个 Agent 来取代人的计划和决策，而另一个 Agent 负责执行具体的操作。通过这两者的交互，实现复杂工具，从而把人们从繁重的工作中解脱出来。为了示范这个过程，作者开发了一个股票投资机器人。同时通过实验发现并总结了 A ...