Yan 的杂物志_个人主页分享

Created2025-04-20|2_Note0_Technic0_工具GPT应用模型工具

Gemini 模型兼容 OpenAI API 文档链接: Google开发者博客 API 地址: base_url="https://generativelanguage.googleapis.com/v1beta/" Claude 模型兼容 OpenAI API 文档链接: Anthropic文档 API 地址: base_url="https://api.anthropic.com/v1/" OpenAI 推理调用获取思考内容文档链接: DeepSeek API指南思考内容存放在：response.choices[0].message.reasoning_content

面向对话式诊断人工智能

Created2025-04-18|2_Note0_Technic2_算法19_大模型垂直领域应用

123456英文名称：Towards Conversational Diagnostic AI中文名称：向对话式诊断人工智能链接: http://arxiv.org/pdf/2401.05654v1作者: Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam, Vivek Natarajan机构: 日期：2024-01-11 1 摘要目标：开发 ...

Obsidian使用大模型_ 插件ExMemoTools使用指南

Created2025-04-13|2_Note0_Technic0_工具笔记工具Obsidian插件

今天向大家介绍一款强大的 Obsidian 插件——ExMemo Tools。该插件通过引入 LLM（大模型）来提升 Obsidian 的工作效率。下面我将详细讲解其使用方法。 1 安装首先，在插件社区中下载并安装该插件。进入设置界面后，配置好大模型的相关参数，即可轻松上手。 2 主要功能插件提供以下四大功能：智能编辑：对选中内容进行智能编辑；根据上下文自动续写。目录管理：为当前文件选择适合的目录并移动。生成元数据：自动生成文件相关的元数据。创建索引：生成目录及子目录的索引，并批量生成文件元数据。 3 智能编辑功能 3.1 编辑选区编辑选区内容，具体步骤如下：选择需要编辑的文字。打开命令菜单选择：ExMemo Tools 智能编辑。查看系统展示的提示词列表，也可输入新的提示词。选择提示词，处理结果将插入选区之后，不直接修改选区。设置页面提供以下配置：管理、排序、编辑提示词，灵活调整优先级和内容。 3.2 续写功能在当前光标位置续写文本：将光标置于待续写位置。打开命菜单选择：ExMemo Tools 续写下一句。系统根据上下文生成续写文本。 ...

论文阅读_Citrus_在医学语言模型中利用专家认知路径以支持高级医疗决策

Created2025-04-11|2_Note0_Technic2_算法19_大模型垂直领域应用

1234567英文名称：Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support中文名称：Citrus：在医学语言模型中利用专家认知路径以支持高级医疗决策链接: http://arxiv.org/pdf/2502.18274v2代码: https://github.com/jdh-algo/Citrus作者: Guoxin Wang, Minyu Gao, Shuai Yang, Ya Zhang, Lizhi He, Liang Huang, Hanlin Xiao, Yexuan Zhang, Wanyue Li, Lu Chen, Jintao Fei, Xin Li机构: JD Health International Inc日期：2025-02-25 1 摘要目标：介绍 Citrus，一个医学语言模型，旨在模拟医疗专家的认知过程，以改善医学推理任务。方法：通过新颖的方法训练模型，使用模拟专家疾病推理数据，捕获 ...

电动奶泡壶拉花技巧

Created2025-04-07|1_Data生活

我：用奶泡杯能不能做出拉花的奶泡？ 4o：你是用什么型号的奶泡杯？我可以更具体点说。我：电动奶泡壶（那种一键搞定的）可加热的 4o：你这设备完全可以整出像样的奶泡了！电动奶泡壶（可加热那种）其实是家庭拉花界的入门神器，关键就看这几点：全脂牛奶 > 低脂 > 植物奶**。加热 + 打泡”模式**，这样更接近“湿奶泡”状态，适合拉花。打完后不要马上倒！先：把壶拿起来轻敲几下桌面，打破大气泡。顺时针旋转奶泡几圈，让它变得光亮流动，像乳胶漆那种质感。注意拿铁液位不要太满，给奶泡留空间。倒奶泡时壶嘴靠近杯面，一开始从高处倒进去混合，再拉近倒“花”。 “奶泡观测标准”（可以叫它《奶泡五段诀》😎），以后打完奶泡，快速判断今天这壶能不能出花儿：看亮度：奶泡够不够“反光” 看流动性：是否“倒得动” 看声音：轻磕杯子有无“气泡崩裂”声看拉丝：拿勺子挑一勺奶泡，滴回壶中看融合：倒入浓缩咖啡后，奶泡是否“自然融合”：中段下沉、后段慢慢浮出一点图案我：拉花的时候，先高后低，原理是什么？因为打奶泡的时候打进了气，所以先拉高，融合之后混合液就变成了比一般水更轻 ...

使用辅助编程的一些思考

Created2025-04-04|2_Note0_Technic0_工具编程工具

1 引子最近使用辅助编程比较频繁，也在思考：它的出现对程序员来说是利大于弊还是弊大于利。对非程序员来说，有了辅助编程是否就能达到程序员的水平？目前，辅助编程还不能解决哪些问题呢？ 1.1 使用场景 1.1.1 程序员角度先从程序员的角度看看。在熟悉的情境下，当我们面对熟悉的问题时，可能会需要编写大量逻辑代码。在这种情况下，机器可以帮助我们自动生成部分代码，从而加速开发过程。对于不熟悉的架构和语法，机器辅助变成能够生成整体示例和语法正确的代码，从而避免因为语法错误而浪费时间；帮助理解和快速上手，并且更容易理解系统的工作原理。在调试过程中，对于一些简单的问题，机器可以提供快速的反馈和解决方案，从而节省我们的时间；对于复杂问题可能无法直接解决，但可以提供一些建议思路，来减少查找和定位的过程。公平地说，与之前手动查找问题相比，提效很多。辅助编程也有一些问题，如多端联调比较困难；如果一些小众工具没有提供文档，辅助编程工具也不知道如何使用。虽然理论上可以通过 Agent 和 RAG 来解决这些问题，但实际实现起来比较麻烦。 1.1.2 非程序员角度再从非程序员的角度看看，一 ...

Edge TTS开源项目简介

Created2025-04-04|2_Note3_Paper0_AITTS

免费使用 Microsoft Edge 项目地址：https://github.com/rany2/edge-tts 1 功能语音合成支持各种主流语言，并可调节合成速度、音量和音高。我测试了一下，中文 300 字的合成时间约为 3 秒，600 字约为 6 秒。从效果来看，语气和情感表达比传统技术（相对旧版讯飞）更好，清晰度和准确率也很高。虽然不能定制，但一般用户无需定制，只要合成效果不出戏即可。 2 原理模拟 edge 浏览器行为，远程调用 microsoft 语音合成服务。 3 安装 1$ pip install edge-tts 4 查看支持的语言和声音 1edge-tts --list-voices 5 合成中文 5.1 命令行调用 1$ edge-tts --text "我正在测试" --write-media hello.mp3 --voice zh-CN-YunxiNeural 5.2 Python 程序调用 12345678import edge_ttsTEXT = "我正在测试"VOICE = "zh-CN-Yun ...

图形化 Agent 工具解析

Created2025-04-04|2_Note0_Technic0_工具GPT应用Agent工具

1 图形化 Agent 工具 1.1 核心组件机器人 Bot：一个 AI 应用，或称为 Agent 知识库：上传个人数据，机器人可根据其内容进行回复工作流：将大问题拆解成多个小问题，通过路径实现，路径上的每个节点完成特定任务插件：调用外部功能（Tools） 1.2 使用体验大模型与其他元素结合，实现完整的目标功能。功能：调用工具、设置工作流和本地数据（知识库）。工具：有许多现成工具可供使用。工作流：前后关系非常直观，像搭积木一样。 2 Coze 扣子是一个 AI 应用开发平台，由字节跳动推出。相对更 toC，无需编程即可实现 agent 的创建和发布，效果有点类似于 AI 界的微信小程序。区别海外版国内版网址 www.coze.com www.coze.cn 登陆方式需要魔法才能使用无使用的网络限制可用模型 OpenAI GPT 系列字节自研模型/国内常用模型发布平台 Discord、Instagram、Slack 飞书、微信客服、微信公众号&订阅号 3 Dify 支持本地搭建和使用本地模 ...

Claude3模型试用指南

Created2025-04-04|2_Note0_Technic0_工具大模型其它大模型

1 简介好消息是，2024 年 3 月 4 日发布了 Claude3，据传比 GPT-4 更好，snooet 版本可以免费试用，坏消息是我们这儿不能用。在官网注册时，需要选择国家并使用手机接收短信验证码。而在选项中没有中国这个选项。即使成功注册了账号并申请了 API 密钥，免费版本仍需要绑定信用卡才能使用。绑定信用卡也需要接收短信验证，网上说每个手机号只能注册一次，所以似乎也无法短信接收平台。（如果你找到了注册方法，请私信告诉我）虽然无法通过 API 调用并将其添加到我们的工具中，但可以通过亚马逊云来免费体验一下。 2 Claude3 2.1 三个模型 Claude 3 共发布了三个模型： Claude 3 Opus：最强大的模型，在高度复杂的任务上提供最先进的性能，并展示流畅性和类似人类的理解。 Claude 3 Sonnet：在智能和速度之间最平衡的模型，是企业工作负载和规模化 AI 部署的绝佳选择 Claude 3 Haiku：最快、最紧凑的模型，旨在实现近乎即时的响应能力和模仿人类交互的无缝 AI 体验 2.2 主要特点这次升级的主要特点包含：多语言功能：Cla ...

大型语言模型与Agent的结合探索

Created2025-04-04|2_Note0_Technic2_算法7_模型增强Agent

何需足量革，尽覆此大地，片革垫靴底，即同覆大地。 -- 寂天《入行论》最近看了一些 LLM 实测报告，感觉 LLM 的能力很强大，但在当前阶段，仍然只能对单一简单问题进行一次提问（详见：开源项目_大海捞针测试），对于复杂的问题，可以通过将其拆解为多个简单问题，使用 LLM 进行多步问答来解决。因此，引入了 Agent。目前也临着在对话过程中容易偏离主题的问题（详见：论文阅读_多Agent_股票操作示例）。猜想大模型的尽头并非某个全能的大模型，而是类似于人的存在，可能是面向 Agent 优化的大模型；或者整体系统由多个大模型组成，其中一个充当主控：这个主控模型并不大，所以反应速度快。他并不存储所有的知识，但包含：内在信念（详见：论文阅读_语言与决策_通过LENS看人类行为），基本的常识，语言理解能力，基础推理能力，类似于高中生的水平。他链接到一个外挂记忆系统，该系统存储客观知识和主观总结，以及长短期记忆，支持存储/搜索（详见：文章阅读_Agent记忆机制综述）。他还包含一个自我进化系统，该系统能记忆、总结，并推动自已更新能力库。和当前系统很大差别在于它能自主构建自己的 ...