Yan 的杂物志_个人主页分享

Created2023-11-07|2_Note0_Technic6_思考

GPT4 Turbo 功能 Token 更长 3.2W->12.8W 个 token 很好，但影响不是很大，一次传那么多也很贵 JSON 响应，对程序更友好 GPT3.5 的 JSON 已明显好于其它模型，更进一步检索功能 + 分析资料 +2023.4 月知识库之前这些功能由外围提供，纳入外围多模态集成之前大家自行实现，降维打击，构建生态 GPT-4 fine-tuning 不知道能做成什么样？如何收费？速度 x2, 版权问题，定价 1/3（真材实料）输入 token 价格 0.01 美元 / 1000 token 输出 token 价格 0.03 美元 / 1000 token 开发与周边产品结合：执行程序 Agent & 定制 GPT 应用，demo 一些应用场景更丰富的 API，集成了之前的外围功能，可以和函数交互，和文档交互，历史记录新的交互的方式，像一个身边的助手，除了问答，还可以作为 agent 执行操作，接入应用一些思考看了两遍，第一遍挺震惊的；冷静下来又细看了一下作为 OPENAI，做到 GPT-4 ...

Web服务_Nginx

Created2023-10-31|2_Note0_Technic3_编程前端

1 Nginx Nginx（发音为 "engine x"）是一个高效的开源 HTTP 服务器和反向代理服务器。作为 HTTP 服务器，Nginx 的功能类似于 Apache，它可以将静态网站内容提供为 HTTP 服务，即创建网站。反向代理的概念可能不太容易理解，让我们通过两个典型的场景来解释一下：在客户的场地内，我们可能需要启动多个端口的 Web 服务，但客户只允许我们打开两个端口。我的博客和公众号服务都需要在 80 端口上运行，但它们是两个完全不同的程序，不方便合并代码。在这种情况下，我们可以使用 Nginx 作为中间的转发。例如，我们可以将所有以 /wx 为相对路径的请求都转发到运行在 8082 端口的公众号服务上，其余的请求则被视为博客请求，转发到运行在 8083 端口的博客服务进行处理。 2 使用 Docker 运行 Http 服务作为 Http 服务使用时，推荐以下方法： 2.1 安装 docker 镜像 1$ docker pull nginx docker image 很小，仅需要 187 M 2.2 启动 nginx 服务 1$ docker run -- ...

代码规则化工具 Black Formatter

Created2023-10-29|2_Note0_Technic0_工具编程工具

1 说明用途：规范化代码格式 2 VSCode 在 VSCode 中安装 Black Formatter 插件打开.py 文件，在文件空白处右击，选择格式化文档，该文档自动完善格式。注意 VSCode 有自己的格式化工具，所以用 VSCode 写的代码格式都还行，主要处理其它不太规范的化码不支持 ipynb 文件 3 命令行 pip install black black xx.py 4 说明我个人更喜欢命令行方式

Python在pdf中提取表格

Created2023-10-29|2_Note0_Technic3_编程Python工具

1 Tabula-py 1.1 开源项目 https://github.com/chezou/tabula-py 1.9k star 1.2 安装 1pip install tabula-py 1.3 使用 12import tabuladfs = tabula.read_pdf(pdf_path, stream=True) 1.4 评测它使用到 java 库，会使开发环境变得比较重 2 camelot 2.1 开源项目 https://github.com/atlanhq/camelot 3.5k star https://github.com/camelot-dev/camelot 2.4k star 2.2 安装 1pip install camelot-py 2.3 评测需要安装 opencv，opengl，安装起来比较麻烦，比较重。 3 pdfplumber 3.1 开源项目 https://github.com/jsvine/pdfplumber 4.7k star 3.2 安装 1pip install pdfplumber 3.3 评测这是一个 pdf 解析库，不 ...

Python行对齐工具difflib

Created2023-10-29|2_Note0_Technic3_编程Python工具

1 用途 1.1 功能对比两个字符串数组之间的差异，以第一个参数为基准，与第二个参数比较。 1.2 使用场景一个原文件，一个改过的文件，对比差异；一个纯文本，一个带格式的，对比差异；比较不同方法生成的文本的差异。 1.3 使用体验实现的功能类似于 Linux 中的 diff 命令；内容少看不出来好，内容一多，效果明显。这功能手写得疯了。 2 使用方法 2.1 示例 1234567891011121314151617import difflibdef compare_and_align(text1, text2): # 创建 Differ 对象 d = difflib.Differ() # 使用 Differ 对象比较文本 for x in d.compare(text1, text2): print(x) print('----')# 两个文本示例text1 = ["This is a sample text for alignment.","a"," ...

买域名

Created2023-10-19|2_Note0_Technic4_系统网络

最近 ip 快把我弄疯了，然后买了个域名，一个来小时就能用了。原因做自己软件的后台服务给客户做演示做自己主页，以及被搜索引擎收录使用 vpn 隧道 / 内网穿透，需要设置地址科学上网需要设置中转服务地址 ip 地址记不住租了多个云服务器，想统一入口需要固定的地址，而云服务器重启后 ip 有变化问题及解决价格一年几十块钱，新用户第一年比较便宜（一顿普通的午饭钱）需要多长时间比如在某度买，需要实名认证（认证成功发短信），人工认证需要几个小时设置域名解析，一般 30 分钟内生效，最常不会超过 24 小时我有多个云服务器，如何使用同一个域名服务商可提供把不同功能指向不同服务器，比 www.aaa.com 指向一个服务器，test.aaa.com 指向另一个，可在规则中设置。也可在其中主要服务器上做端口映射是否需要备案如果服务器在国内且做自己的网站（有网页或 Http 服务），则需要备案，详见备案

配置VPN

Created2023-10-17|2_Note0_Technic4_系统网络

1 问题解析 VPN 的使用前提是需要知道对方主机 ip 地址及开放的端口。我遇到的问题是，自用的机器 A 和服务器 B 都没有固定 IP，机器 A 在局域网里，机器 B 使用物联网卡，本身没有对外的 IP 地址，物联网厂商也不提供端口映射。这样 A 只能使用“向日葵”类的远程桌面软件连接服务器 B，它的问题是：同一时间只能供一个连接操作远程桌面传输屏幕变化，比只传输字符的 ssh 类工具慢很多向日葵在用户登录后才能启动，所以如果远程无人职守，重启后就连不上了不能复制粘贴，拷个东西费死劲，很多命令只能手敲，界面还反应慢我的解决方案是：使用 VPN 隧道，在一台有外部 IP 的云服务器 C 上搭建 VPN，然后用 A 和 B 同时连接 C，此时它们在同一网络中，即可使用 A 访问 B。进一步简化：只在 B 和 C 上配置 VPN，然后把 B 的端口映射成到 C 的端口，任意机器通过 C 来访问 B，这种做法的优点是不用配置 A，缺点是所有需要暴露的端口都需要映射。选择哪一种方法，主要看需求。 2 生成密钥 2.1 Easy-RSA Easy-RSA 是一款用于生 ...

Obsidian_插件推荐231005

Created2023-10-05|2_Note0_Technic0_工具笔记工具Obsidian插件

Obsidian 插件十一在家整理 OB 笔记，发现两个超好用的插件：Linter & tag wrangler。起因前一阵把 Obsidian 笔记用 Hexo 转换成静态网页发到 github.io 做自己 blog 网站。发现了笔记中的一些问题，比如 tag 过多、重复，markdown 格式不规范，导致转换过程报错，转换后格式混乱…… 虽然用 Python 解决了，但是过程非常别扭：需要穿叉调用 Python 和 Javascript 环境，然后就想，要不学学 TypeScript，自己写插件吧？再后来发现：原来这些都有人写过了，汗死…… 分享一下，希望也能提升亲们的笔记效率。 tag wrangler tag wrangler 目前位居下载量排行榜第 16 位，是个热门插件。对于笔记多，标签复杂的用户非常实用。文章多了，修改标签，做层级标签，重做分类是非常常见的操作，很难想象手动修改上百个标签，tag wrangler 可以很好地解决这一问题。在三方插件界面安装 tag wrangler 后，在 Tags 面板中的标签上点右键，即可看到新菜单，其中的 Ren ...

论文阅读_GPT4_4V

Created2023-10-04|2_Note0_Technic2_算法5_模型结构多模态

123456英文名称: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)中文名称: LMM 的黎明：GPT-4V 的初步探索文章: http://arxiv.org/abs/2309.17421中文翻译：https://mp.weixin.qq.com/s/a8Y_yU5XYgJhQ2xMuTK13w作者: Zhengyuan Yang日期: 2023-09-29 1 读后感 GPT-4V 是基于 SOTA LLM 并使用大量多模态数据训练的最先进的具有视觉能力的 LMM。论文是 2023 年 9 月 29 日微软发布 GPT-4V（视觉）的研究报告。主要讨论了多模态及其在各场景中的应用。文章不涉及公式及具体实现方法，整体偏重经验和测试，看了之后可以少走一些弯路。文章 166 页，近 3W 字，124 张图片，乍一看觉得挺长的，不过实验挺丰富挺有意思的，有点像在飞机上翻杂志的感觉。整个文章看下来，感觉就像是培养一个机器 " 人 "，从底层的视觉和文本能力，推理能力，智商情商，到后面的与物理世界交互，解决具体问 ...

沉浸式翻译

Created2023-09-29|2_Note0_Technic0_工具浏览器工具

1 介绍名称：沉浸式翻译（浏览器插件）地址：https://immersivetranslate.com/docs/installation/ 优势：中英文翻译对照支持 pdf 翻译 2 使用方法方法 1：点击右上角翻译图标方法 2：在网页右键选“沉浸式翻译” 3 快捷键 Alt+W: 翻译整个页面。 Alt+A: 翻译/切换原文（在 arxiv 上翻译论文非常好用）。