avatar
Articles
878
Tags
282
Categories
185

Yan 的杂物志_个人主页分享
Search
大模型+强化学习_在线交互调参_GLAM
Created2024-03-19|2_Note0_Technic2_算法7_模型增强AgentLLM_RL
1234567英文名称: Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning中文名称: 通过在线强化学习在交互式环境中建立大型语言模型链接: https://arxiv.org/pdf/2302.02662.pdf代码: https://github.com/flowersteam/Grounding_LLMs_with_online_RL作者: Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer机构: 法国波尔多大学,Hugging Face...日期: 2023-02-06 v1 1 读后感 这是一篇倾向于研究性和思考的文章,不仅适用于机器人领域,还可以推广到 Agent 和其他领域,对于希望用大型模型来解决实际生活中的问题,这是大模型应用过程无法跳过的一环。 为了简化问题,作者将整个测试环境转化为语言环境, ...
大模型+强化学习_自我对弈偏好优化
Created2024-03-19|2_Note0_Technic2_算法7_模型增强AgentLLM_RL
123456英文名称: A Minimaximalist Approach to Reinforcement Learning from Human Feedback中文名称: 一种极简极大化的强化学习方法:来自人类反馈的学习链接: http://arxiv.org/abs/2401.04056v1作者: Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh Agarwal机构: Google Research日期: 2024-01-08 1 读后感 "Minimax Winner" 是博弈论中的一个概念,指的是在最坏情况下尽量最大化自己的收益。在这里将偏好学习视为一种零和博弈。 我觉得它的原理是这样的:大型模型是通过大量数据进行训练得到的生成模型,因此在生成结果时可能存在不稳定性,有时会表现出某些数据特征,而有时则表现出其他特征。有时候它可能会产生幻觉或相互矛盾的结果。 提出的方法相当于针对同一个问题生成多种答案,然后让模型选择最佳答案。选择过程实际上是让模型根据已有知识进行思考和推理,以反映大多数人的 ...
大模型+强化学习_精典方法_RLHF
Created2024-03-19|2_Note0_Technic2_算法7_模型增强AgentLLM_RL
123456英文名称:Deep Reinforcement Learning from Human Preferences 中文名称:从人类偏好中进行深度强化学习链接:https://arxiv.org/abs/1706.03741作者:Paul F Christiano, Jan Leike, Tom B Brown...机构:OpenAI, DeepMind日期:2017-06-12 v1 1 读后感 RLHF 是 LLM 的重要组成部分。这篇论文早在 2017 年 OpenAI 和 DeepMind 联合发表的,他主要是为优化强化学习(RL)而设计的方法,主要在游戏领域进行实验,更多讨论机器人场景。 强化学习常用于解决真实世界中的复杂问题。以往的强化学习需要定义奖励函数,而 RLHF 使用了普通人定义的问答对来提供不到 1% 代理与环境交互反馈,从而大大降低了人工监督的成本。 其原理是:没有绝对评分,但有相对的更好。 先不考虑大语言模型,只考虑强化学习本身。这里讨论的是如何将机器在环境中的自主探索和人工指导结合起来。如果把 agent 比作一个学生,那么 reward 函数就扮 ...
主流大模型API价格汇总
Created2024-03-17|2_Note0_Technic0_工具GPT应用模型工具
1 openai 241006 更新 https://openai.com/api/pricing/ Model Input Output gpt-4o-mini $0.150/1M tokens $0.600 /1M tokens gpt-4o $2.50 / 1M tokens $10.00 / 1M tokens gpt-4-turbo $10.00 / 1M tokens $30.00 / 1M tokens gpt-4 $30.00 / 1M tokens $60.00 / 1M tokens gpt-3.5-turbo-0125 $0.50 / 1M tokens $1.50 / 1M tokens gpt-3.5-turbo-instruct $1.50 / 1M tokens $2.00 / 1M tokens 2 gimini https://ai.google.dev/pricing?hl=zh-cn 2.1 免费模式 免费模式所有人都可以享受每分钟 360 次请求查询。 免费以外 输入字符:$0.00012 ...
大模型+强化学习_通过强化学习对齐大模型和环境
Created2024-03-16|2_Note0_Technic2_算法7_模型增强AgentLLM_RL
1234567英文名称: True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning中文名称: 实践出真知:通过强化学习将LLMS与具体环境对齐链接: https://arxiv.org/abs/2401.14151代码: https://github.com/WeihaoTan/TWOSOME作者: Weihao Tan, Wentao Zhang, Shanqi Liu, Longtao Zheng, Xinrun Wang, Bo An机构: 新加坡南洋理工大学, 浙江大学, Skywork AI日期: 2024-01-25 1 读后感 这篇论文试图解决的问题是:当自然语言模型与现实世界进行交互时所产生的问题。这种问题不仅可以应用于游戏和机器人等领域,可以说它可被应用在需要代理与环境进行多步交互以解决问题的各个领域,该方法主要用于优化每一步的决策。 在使用大模型时,常见的问题是将复杂问题分解为多个步骤来解决,而每一步动作在真实场景中会 ...
iTransformer时序预测模型解析
Created2024-03-15|2_Note0_Technic2_算法9_时序
12345678英文名称: ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING中文名称: ITRANSFORMER:倒置Transformers在时间序列预测中的有效性链接: https://openreview.net/forum?id=X6ZmOsTYVs代码: https://github.com/thuml/iTransformer作者: Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long机构: 清华大学软件学院, 清华大学国家数字化治理工程技术研究中心, 蚂蚁集团日期: 2023-10-10引用次数: 0 读后感 作者提出了一个疑问:为什么在很多情况下,时序问题使用 Transformer 结构反而不如线性模型好?按理说,Transformer 作为预测序列化数据的模型,应该更擅长处理时序问题。作者认为可能是数据组织方式不够优化引起。 文章主要讨论了多变量时序预 ...
如何选择:编写程序、调用大模型还是训练模型?
Created2024-03-15|2_Note0_Technic6_思考大模型
昨天和小伙伴讨论技术方案时,突然意识到在过去的半年里,参与的几个与人工智能相关的项目,大家都纠结于选择:是使用程序实现?还是调用大模型?亦或是进行模型训练? 在这里我们不讨论为了使用而使用 AI 的场景,只考虑在日常工作中,如何更省钱省力。 1 可供选择的方案 用程序写规则实现 调用现有模型 +RAG(检索增强生成) 训练模型 2 背后的逻辑 可以看到每种方案都有它适用的领域。 2.1 程序不能解决的问题 程序不能解决“复杂”问题,试想以下场景: 在与用户进行交互过程中,可能有很多不同的说法来表达一个问题,程序无法一一列举。这时候就需要使用模型。 对于图像、音频等模拟信号处理来说,更有无数种可能性。对于这些信息的识别、生成或判断,很难用硬性指标来界定,这时候可以使用模型。 2.2 调模型不能解决的问题 调用模型最大的问题是:通用模型不了解你的领域知识和背景知识。 如果想得到很好的结果,首先得选择一个靠谱的模型。另外,还需要把提示写得非常准确,比如让它写一段程序。如果描述非常清晰,细化到函数内部逻辑,就能生成更符合你期望的内容。如果只说“给我写一个音乐播放器”,没有描述它的系统、编程 ...
论文阅读_代码生成_CODEFUSE
Created2024-03-14|2_Note0_Technic0_工具代码生成
12345678英文名称: CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model中文名称: CodeFuse-13B:预训练的多语言代码大语言模型链接: https://arxiv.org/pdf/2310.06266.pdf代码: https://github.com/codefuse-ai作者: Peng Di, Jianguo Li, Hang Yu...机构: 蚂蚁集团日期: 2023-10-10 v1引用次数: 4 读后感 CODEFUSE 是蚂蚁集团开源的代码生成模型,目前开源了两个版本:CodeFuse-13B 和 CodeFuse-CodeLlama-34B。其中,13B 是基于论文中设计的模型架构,34B 则是在 CodeLlama-34b-Python 的基础上进行微调。 从整体上看,无法确定 CODEFUSE 是根据自己设计的架构从头训练,还是基于 CODELAMMA 进行自然语言训练并逐步微调,哪个更好。论文需要有创新性,打榜又需要高分,所以只能采用这种写法。 既然如此,就没必要深究 ...
论文阅读_MoE_Switch Transformers
Created2024-03-11|2_Note0_Technic3_编程大模型
12345678英文名称: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity中文名称: Switch Transformers: 用简单高效的稀疏性将模型扩展到万亿参数规模链接: https://arxiv.org/abs/2101.03961代码: https://github.com/tensorflow/mesh作者: William Fedus, Barret Zoph, Noam Shazeer机构: 谷歌, 美国加利福尼亚州山景城日期: 2021-01-11引用次数: 1205 读后感 MoE 相对于原始的 Transformer 来说是一个稀疏模型,其中包含多个专家模型。在不同场景下通过路由调用不同的模型进行计算。具体方法如图 -2 所示,该方法将 Transformer 中的 FFN 变成了选择某个具体的 FFN 进行路由操作,而其它模块(非蓝色部分)则保持不变,由各个专家共用。 从论文的角度来看,其提出了训练一个巨大模型,并在不同区域 ...
UVR5音频去声器分析
Created2024-03-09|2_Note0_Technic2_算法1_音频
1 读后感 UVR5(Ultimate Vocal Remover 5)是一款音频处理工具,主要用于从混音中分离人声和乐器轨道。它的主要目标是去除人声,保留乐声。然而,使用该工具提取人声可能会遇到一些问题。 其原理基于卷积神经网络(CNN)和自动编码器等模型。 音频文件被转换成频谱图,通常是通过短时傅里叶变换(STFT)将时域信号转换成频域表示。 UVR5 可能使用了一种称为 U-Net 的神经网络架构,它是一种常用于图像分割的模型。这种网络结构适用于音频分离,因为它能够在不同的频率和时间尺度上捕捉到音频的特征。 预训练好的模型会接收混合音频的频谱图作为输入,并输出两个频谱图:一个对应人声,另一个对应伴奏。 2 相关论文信息 12345678英文名称: MULTI-SCALE MULTI-BAND DENSENETS FOR AUDIO SOURCE SEPARATION中文名称: 用于音频源分离的多尺度多频段密集网络链接: https://ieeexplore.ieee.org/abstract/document/8678825/代码: https://github.com/An ...
1…252627…88
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
878
Tags
282
Categories
185
Follow Me
Announcement
This is my Blog
Recent Post
什么情况下使用强化学习2025-10-11
围棋经典算法与股票市场预测2025-10-11
强化学习工具及优化方法2025-10-11
强化学习的核心概念与实践应用2025-10-11
金融相关的强化学习工具2025-10-11
Categories
  • 0_IMO90
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听88
      • 01_自我建构36
        • 实修3
        • 思考与觉悟17
Tags
音视频处理 个人成长 历史 社会 自动化 特征工程 叙事治疗 成瘾 随笔 SSH 网络环境 公众号 编程语言/前端 情绪管理 日常琐事 writing 云计算 知识图/图神经网络 旅行 自我表达 开发 Python 多代理系统 知识图/知识图谱 笔记工具 机器学习/自动建模 股票 协议 阅读/电影 模型工具 感知 数据存储/Hadoop 生活 工具 主题笔记 关系维护 Web服务 reading 美食 经济
Archives
  • October 202515
  • September 20256
  • August 202518
  • July 202538
  • June 202537
  • May 202529
  • April 202516
  • March 20258
Info
Article :
878
Total Count :
1228.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database