Yan 的杂物志_个人主页分享

Created2024-03-26|2_Note0_Technic2_算法2_认知科学

1234567英文名称: Human behaviour through a LENS中文名称: 语言与决策_通过LENS看人类行为链接: http://arxiv.org/abs/2403.15293v1作者: Valerio Capraro机构: 米兰-比科卡大学日期: 2024-03-22 1 读后感最近看了一些 AI 反哺认知科学的论文，它们探讨了记忆、联想和梦境建模，但没有找到对情绪的分析。我一直很好奇：像自怜、嫉妒这些情绪进化出来究竟有什么作用。然后我看到了这篇文章，觉得其中的想法很有趣。核心内容是：语言框架导致行为上的显著变化，语言框架又可以被各方利用来谋取利益。研究重点是：语言框架如何影响人们的决策。作者提出了 LENS 框架，如图 -1 所示，他认为语言可以通过情绪和规范两个方面来产生影响，并最终影响决策结果。在某种程度上，他提出了一种对人类决策进行建模的方法。这里的“规范“主要指道德和价值观，想想确实很重要。对于语言，在使用大型模型时我们也经常遇到这种问题：改变表述方式会得到完全不同的解决方案，然后有人使用 p-tuning 等方法来提高模型对于同一问题不同描 ...

强化学习与大模型结合研究

Created2024-03-24|2_Note0_Technic2_算法7_模型增强AgentLLM_RL

1 引言从目前使用大模型的经验来看，大模型更擅长解决基于生成的软性问题，但在处理基于决策的硬性问题，例如选择正确答案等方面效果相对较差。生成问题通常使用掩码来隐藏上下文信息，让模型通过上文生成下文，这是一种自监督方法；而决策问题通常需要一个明确的答案，如是或否、A/B/C 选项，因此需要使用有监督数据进行训练或微调模型。将生成和强化学习结合起来是解决这个问题的一种思路，强化学习通过奖励函数直接或间接地为模型提供有监督的判定标准。因此，在大模型中引入强化学习可以提升其判断能力。 2 RLHF 123456英文名称：Deep Reinforcement Learning from Human Preferences 中文名称：从人类偏好中进行深度强化学习链接：https://arxiv.org/abs/1706.03741作者：Paul F Christiano, Jan Leike, Tom B Brown...机构：OpenAI, DeepMind日期：2017-06-12 v1 首先是优化生成聊天对话，由于无法直接提供得分，因此采取了学习相对值的方法。这种方法主要依赖于人类标 ...

大模型+强化学习_利用AI反馈扩展强化学习_RLAIF

Created2024-03-21|2_Note0_Technic2_算法7_模型增强AgentLLM_RL

123456英文名称: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback中文名称: RLAIF：利用AI反馈扩展强化学习链接: http://arxiv.org/abs/2309.00267v2作者: Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash机构: Google Research日期: 2023-09-01 1 读后感研究使用机器反馈的强化学习（RLAIF）来替代人工反馈的强化学习。该研究主要集中在大模型领域，并通过一系列实验证明了 RLAIF 的适用范围，还介绍了一些具体的方法，是一篇偏实用性的论文。另外，从另一个角度考虑，许多大型模型（如 Claude3）似乎已经与人类判断相当一致。那么，我们是否可以 ...

大模型+强化学习_在线交互调参_GLAM

Created2024-03-19|2_Note0_Technic2_算法7_模型增强AgentLLM_RL

1234567英文名称: Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning中文名称: 通过在线强化学习在交互式环境中建立大型语言模型链接: https://arxiv.org/pdf/2302.02662.pdf代码: https://github.com/flowersteam/Grounding_LLMs_with_online_RL作者: Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer机构: 法国波尔多大学，Hugging Face...日期: 2023-02-06 v1 1 读后感这是一篇倾向于研究性和思考的文章，不仅适用于机器人领域，还可以推广到 Agent 和其他领域，对于希望用大型模型来解决实际生活中的问题，这是大模型应用过程无法跳过的一环。为了简化问题，作者将整个测试环境转化为语言环境， ...

大模型+强化学习_自我对弈偏好优化

Created2024-03-19|2_Note0_Technic2_算法7_模型增强AgentLLM_RL

123456英文名称: A Minimaximalist Approach to Reinforcement Learning from Human Feedback中文名称: 一种极简极大化的强化学习方法：来自人类反馈的学习链接: http://arxiv.org/abs/2401.04056v1作者: Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh Agarwal机构: Google Research日期: 2024-01-08 1 读后感 "Minimax Winner" 是博弈论中的一个概念，指的是在最坏情况下尽量最大化自己的收益。在这里将偏好学习视为一种零和博弈。我觉得它的原理是这样的：大型模型是通过大量数据进行训练得到的生成模型，因此在生成结果时可能存在不稳定性，有时会表现出某些数据特征，而有时则表现出其他特征。有时候它可能会产生幻觉或相互矛盾的结果。提出的方法相当于针对同一个问题生成多种答案，然后让模型选择最佳答案。选择过程实际上是让模型根据已有知识进行思考和推理，以反映大多数人的 ...

大模型+强化学习_精典方法_RLHF

Created2024-03-19|2_Note0_Technic2_算法7_模型增强AgentLLM_RL

123456英文名称：Deep Reinforcement Learning from Human Preferences 中文名称：从人类偏好中进行深度强化学习链接：https://arxiv.org/abs/1706.03741作者：Paul F Christiano, Jan Leike, Tom B Brown...机构：OpenAI, DeepMind日期：2017-06-12 v1 1 读后感 RLHF 是 LLM 的重要组成部分。这篇论文早在 2017 年 OpenAI 和 DeepMind 联合发表的，他主要是为优化强化学习（RL）而设计的方法，主要在游戏领域进行实验，更多讨论机器人场景。强化学习常用于解决真实世界中的复杂问题。以往的强化学习需要定义奖励函数，而 RLHF 使用了普通人定义的问答对来提供不到 1% 代理与环境交互反馈，从而大大降低了人工监督的成本。其原理是：没有绝对评分，但有相对的更好。先不考虑大语言模型，只考虑强化学习本身。这里讨论的是如何将机器在环境中的自主探索和人工指导结合起来。如果把 agent 比作一个学生，那么 reward 函数就扮 ...

主流大模型API价格汇总

Created2024-03-17|2_Note0_Technic0_工具GPT应用模型工具

1 openai 241006 更新 https://openai.com/api/pricing/ Model Input Output gpt-4o-mini $0.150/1M tokens $0.600 /1M tokens gpt-4o $2.50 / 1M tokens $10.00 / 1M tokens gpt-4-turbo $10.00 / 1M tokens $30.00 / 1M tokens gpt-4 $30.00 / 1M tokens $60.00 / 1M tokens gpt-3.5-turbo-0125 $0.50 / 1M tokens $1.50 / 1M tokens gpt-3.5-turbo-instruct $1.50 / 1M tokens $2.00 / 1M tokens 2 gimini https://ai.google.dev/pricing?hl=zh-cn 2.1 免费模式免费模式所有人都可以享受每分钟 360 次请求查询。免费以外输入字符：$0.00012 ...

大模型+强化学习_通过强化学习对齐大模型和环境

Created2024-03-16|2_Note0_Technic2_算法7_模型增强AgentLLM_RL

1234567英文名称: True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning中文名称: 实践出真知：通过强化学习将LLMS与具体环境对齐链接: https://arxiv.org/abs/2401.14151代码: https://github.com/WeihaoTan/TWOSOME作者: Weihao Tan, Wentao Zhang, Shanqi Liu, Longtao Zheng, Xinrun Wang, Bo An机构: 新加坡南洋理工大学, 浙江大学, Skywork AI日期: 2024-01-25 1 读后感这篇论文试图解决的问题是：当自然语言模型与现实世界进行交互时所产生的问题。这种问题不仅可以应用于游戏和机器人等领域，可以说它可被应用在需要代理与环境进行多步交互以解决问题的各个领域，该方法主要用于优化每一步的决策。在使用大模型时，常见的问题是将复杂问题分解为多个步骤来解决，而每一步动作在真实场景中会 ...

iTransformer时序预测模型解析

Created2024-03-15|2_Note0_Technic2_算法9_时序

12345678英文名称: ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING中文名称: ITRANSFORMER：倒置Transformers在时间序列预测中的有效性链接: https://openreview.net/forum?id=X6ZmOsTYVs代码: https://github.com/thuml/iTransformer作者: Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long机构: 清华大学软件学院, 清华大学国家数字化治理工程技术研究中心, 蚂蚁集团日期: 2023-10-10引用次数: 0 读后感作者提出了一个疑问：为什么在很多情况下，时序问题使用 Transformer 结构反而不如线性模型好？按理说，Transformer 作为预测序列化数据的模型，应该更擅长处理时序问题。作者认为可能是数据组织方式不够优化引起。文章主要讨论了多变量时序预 ...

如何选择：编写程序、调用大模型还是训练模型？

Created2024-03-15|2_Note0_Technic6_思考大模型

昨天和小伙伴讨论技术方案时，突然意识到在过去的半年里，参与的几个与人工智能相关的项目，大家都纠结于选择：是使用程序实现？还是调用大模型？亦或是进行模型训练？在这里我们不讨论为了使用而使用 AI 的场景，只考虑在日常工作中，如何更省钱省力。 1 可供选择的方案用程序写规则实现调用现有模型 +RAG（检索增强生成）训练模型 2 背后的逻辑可以看到每种方案都有它适用的领域。 2.1 程序不能解决的问题程序不能解决“复杂”问题，试想以下场景：在与用户进行交互过程中，可能有很多不同的说法来表达一个问题，程序无法一一列举。这时候就需要使用模型。对于图像、音频等模拟信号处理来说，更有无数种可能性。对于这些信息的识别、生成或判断，很难用硬性指标来界定，这时候可以使用模型。 2.2 调模型不能解决的问题调用模型最大的问题是：通用模型不了解你的领域知识和背景知识。如果想得到很好的结果，首先得选择一个靠谱的模型。另外，还需要把提示写得非常准确，比如让它写一段程序。如果描述非常清晰，细化到函数内部逻辑，就能生成更符合你期望的内容。如果只说“给我写一个音乐播放器”，没有描述它的系统、编程 ...