利用 autossh 管理 SSH 连接
1 功能
我有一个本地服务器,想通过网络服务器端口映射的方式供其他主机连接。具体使用
SSH 端口映射的方式,并且希望在重新启动后,登录之前也能正常连接。
2 原理
定期检查 SSH 连接是否仍然正常,并在发现连接中断或不稳定时重新启动 SSH
进程。
它会创建一个额外的 " 监控端口 "(通常由 -M
选项指定),通过这个端口发送和接收数据包。如果发现数据包不能通过这个监控端口到达远程服务器,就认为连接已断开。如果不设置
-M 端口,autossh 会依赖于 SSH 本身的心跳(通过
ServerAliveInterval 等参数)来进行监控。
3 操作
3.1 配置服务
123456789101112131415161718$ vi /etc/systemd/system/autossh.service编辑如下:[Unit]Description=Autossh tunnelWants=network-online.targetAfter=network-online.target [Service]Type=simpleUser=xieyanExecStart=autossh - ...
SWE-Agent开源实现
1 引子
前几天,AI 编程机器人 Devin
引起了热议。传言称:程序员的饭碗就要丢了。这两天,一个类似功能的产品
SWE-Agent 开源,在 SWE-Bench 上实现了与 Devin
类似的效果。下面让我们来看看 AI 程序员的具体实现方法。
2 信息
地址:https://github.com/princeton-nlp/SWE-agent
功能:修复 Github 库 Issue 中的问题。
3 原理
作者提出了:Agent-Computer Interface (ACI) 代理计算机接口。优化了
Agent 与计算机之间的衔接,使LLM
能够访问、查看、编辑和执行代码文件。
贡献如下:
添加了编辑时运行命令的
Linter,如果语法不正确,则不允许编辑命令通过。
为 Agent 提供了文件查看器,在每个回合只显示 100
行时,查看器效果最佳。作者构建的查看器支持上下文滚动,并且可以在文件中进行搜索。
为 Agent
提供了专门构建全目录字符串搜索命令,并发现以简洁的方式列出匹配项很重要。因为每次向模型展示每个匹配项反而会给模型带来更大混乱。
当命令的输出为空时, ...
Android Studio开发环境指南
1 下载
https://developer.android.com/studio?hl=zh-cn
2 安装
123$ tar xvzf android-studio-2023.2.1.23-linux.tar.gz$ cd android-studio/bin/$ ./studio.sh
本机在:/exports/download/src/android-studio/bin
按提示安装。
3 使用
3.1 新建项目
新建一个最简单的项目
3.2 编译
左下锤子图标 build(按提示下载编译工具)
3.3 运行
3.3.1 创建模拟器
第一次运行时,如果不连接硬件设置,需要建立模拟器环境
Device Manager(右上),打开时默认有一个设备;也可点 +
号,创建一个新模拟器
Running Devices,点 + 号,启动一个设备
在左下或者菜单中点击 Run,即可在模拟器中调试
修改后:
第一次运行时,如果没有连接硬件设置,需要建立模拟器环境。
在 Device Manager(右上方),默认已经有一个设备;也可以点击
+,创建一个新的模拟器。
在 Runn ...
通过LENS看人类行为
1234567英文名称: Human behaviour through a LENS中文名称: 语言与决策_通过LENS看人类行为链接: http://arxiv.org/abs/2403.15293v1作者: Valerio Capraro机构: 米兰-比科卡大学日期: 2024-03-22
1 读后感
最近看了一些 AI
反哺认知科学的论文,它们探讨了记忆、联想和梦境建模,但没有找到对情绪的分析。我一直很好奇:像自怜、嫉妒这些情绪进化出来究竟有什么作用。
然后我看到了这篇文章,觉得其中的想法很有趣。核心内容是:语言框架导致行为上的显著变化,语言框架又可以被各方利用来谋取利益。研究重点是:语言框架如何影响人们的决策。作者提出了
LENS 框架,如图 -1
所示,他认为语言可以通过情绪和规范两个方面来产生影响,并最终影响决策结果。在某种程度上,他提出了一种对人类决策进行建模的方法。这里的“规范“主要指道德和价值观,想想确实很重要。
对于语言,在使用大型模型时我们也经常遇到这种问题:改变表述方式会得到完全不同的解决方案,然后有人使用
p-tuning
等方法来提高模型对于同一问题不同描 ...
强化学习与大模型结合研究
1 引言
从目前使用大模型的经验来看,大模型更擅长解决基于生成的软性问题,但在处理基于决策的硬性问题,例如选择正确答案等方面效果相对较差。
生成问题通常使用掩码来隐藏上下文信息,让模型通过上文生成下文,这是一种自监督方法;而决策问题通常需要一个明确的答案,如是或否、A/B/C
选项,因此需要使用有监督数据进行训练或微调模型。
将生成和强化学习结合起来是解决这个问题的一种思路,强化学习通过奖励函数直接或间接地为模型提供有监督的判定标准。因此,在大模型中引入强化学习可以提升其判断能力。
2 RLHF
123456英文名称:Deep Reinforcement Learning from Human Preferences 中文名称:从人类偏好中进行深度强化学习链接:https://arxiv.org/abs/1706.03741作者:Paul F Christiano, Jan Leike, Tom B Brown...机构:OpenAI, DeepMind日期:2017-06-12 v1
首先是优化生成聊天对话,由于无法直接提供得分,因此采取了学习相对值的方法。这种方法主要依赖于人类标 ...
大模型+强化学习_利用AI反馈扩展强化学习_RLAIF
123456英文名称: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback中文名称: RLAIF:利用AI反馈扩展强化学习链接: http://arxiv.org/abs/2309.00267v2作者: Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash机构: Google Research日期: 2023-09-01
1 读后感
研究使用机器反馈的强化学习(RLAIF)来替代人工反馈的强化学习。该研究主要集中在大模型领域,并通过一系列实验证明了
RLAIF 的适用范围,还介绍了一些具体的方法,是一篇偏实用性的论文。
另外,从另一个角度考虑,许多大型模型(如
Claude3)似乎已经与人类判断相当一致。那么,我们是否可以 ...
大模型+强化学习_在线交互调参_GLAM
1234567英文名称: Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning中文名称: 通过在线强化学习在交互式环境中建立大型语言模型链接: https://arxiv.org/pdf/2302.02662.pdf代码: https://github.com/flowersteam/Grounding_LLMs_with_online_RL作者: Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer机构: 法国波尔多大学,Hugging Face...日期: 2023-02-06 v1
1 读后感
这是一篇倾向于研究性和思考的文章,不仅适用于机器人领域,还可以推广到
Agent
和其他领域,对于希望用大型模型来解决实际生活中的问题,这是大模型应用过程无法跳过的一环。
为了简化问题,作者将整个测试环境转化为语言环境, ...
大模型+强化学习_精典方法_RLHF
123456英文名称:Deep Reinforcement Learning from Human Preferences 中文名称:从人类偏好中进行深度强化学习链接:https://arxiv.org/abs/1706.03741作者:Paul F Christiano, Jan Leike, Tom B Brown...机构:OpenAI, DeepMind日期:2017-06-12 v1
1 读后感
RLHF 是 LLM 的重要组成部分。这篇论文早在 2017 年 OpenAI 和 DeepMind
联合发表的,他主要是为优化强化学习(RL)而设计的方法,主要在游戏领域进行实验,更多讨论机器人场景。
强化学习常用于解决真实世界中的复杂问题。以往的强化学习需要定义奖励函数,而
RLHF 使用了普通人定义的问答对来提供不到 1%
代理与环境交互反馈,从而大大降低了人工监督的成本。
其原理是:没有绝对评分,但有相对的更好。
先不考虑大语言模型,只考虑强化学习本身。这里讨论的是如何将机器在环境中的自主探索和人工指导结合起来。如果把
agent 比作一个学生,那么 reward
函数就扮 ...
大模型+强化学习_自我对弈偏好优化
123456英文名称: A Minimaximalist Approach to Reinforcement Learning from Human Feedback中文名称: 一种极简极大化的强化学习方法:来自人类反馈的学习链接: http://arxiv.org/abs/2401.04056v1作者: Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh Agarwal机构: Google Research日期: 2024-01-08
1 读后感
"Minimax Winner"
是博弈论中的一个概念,指的是在最坏情况下尽量最大化自己的收益。在这里将偏好学习视为一种零和博弈。
我觉得它的原理是这样的:大型模型是通过大量数据进行训练得到的生成模型,因此在生成结果时可能存在不稳定性,有时会表现出某些数据特征,而有时则表现出其他特征。有时候它可能会产生幻觉或相互矛盾的结果。
提出的方法相当于针对同一个问题生成多种答案,然后让模型选择最佳答案。选择过程实际上是让模型根据已有知识进行思考和推理,以反映大多数人的 ...
主流大模型API价格汇总
1 openai
241006 更新
https://openai.com/api/pricing/
Model
Input
Output
gpt-4o-mini
$0.150/1M tokens
$0.600 /1M tokens
gpt-4o
$2.50 / 1M tokens
$10.00 / 1M tokens
gpt-4-turbo
$10.00 / 1M tokens
$30.00 / 1M tokens
gpt-4
$30.00 / 1M tokens
$60.00 / 1M tokens
gpt-3.5-turbo-0125
$0.50 / 1M tokens
$1.50 / 1M tokens
gpt-3.5-turbo-instruct
$1.50 / 1M tokens
$2.00 / 1M tokens
2 gimini
https://ai.google.dev/pricing?hl=zh-cn
2.1 免费模式
免费模式所有人都可以享受每分钟 360 次请求查询。
免费以外
输入字符:$0.00012 ...