avatar
Articles
834
Tags
257
Categories
173

Yan 的杂物志_个人主页分享
Search
论文阅读_ChatGLM
Created2023-03-23|2_Note0_Technic2_算法6_自然语言其它LLM
name_ch: Glm-130B:开放双语预训练模型 name_en: GLM-130B:AN OPEN BILINGUAL PRE-TRAINED paper_addr: https://arxiv.org/abs/2210.02414 code: https://github.com/THUDM/GLM-130B/ date_publish: 2023-01-01 1 读后感 2022 年 11 月,斯坦福大学大模型中心对全球 30 个主流大模型进行了全方位的评测 2,GLM-130B 是亚洲唯一入选的大模型。GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平。 ChatGLM 最大的优点是开源,并针对中文进行了优化,尤其是可以在自己的机器上搭建其简版的 int4 服务,实测回答一般性问题效果还不错,文后附环境搭建方法。 2 摘要 ChatGLM 是使用中英双语预训练的大语言模型,具有 130B 参数(1300 亿),使用 400B token 训练。 在模型结构上结合了 GPT 和 BERT。在英文方面,效果优于 GPT-3;在中文 ...
熵_相对熵_散度
Created2023-03-19|2_Note0_Technic2_算法3_数据分布
1 信息量 意外越大,越不可能发生,概率就越小,信息量也就越大,也就是信息越多。比如说“今天肯定会天黑”,实现概率 100%,说了和没说差不多,信息量就是 0。 详见:2. 信息量 1.1 公式 \[ I(x)=-logP(x) \] 概率 P(x) 越小,信息量越大,可以简单理解为最小编码长度,比如概率 0.125,log(1/0.125),如果以 2 为底做 log,则需要 3 位二进制数描述。 2 熵 熵用于描述不确定性,越不确定,熵越高。熵是事件所属的整个分布的不确定性总量量化。可以说:熵越小,越容易被预测。 2.1 公式 \[ H(\mathrm{x})=\mathbb{E}_{\mathbf{x} \sim P}[I(x)]=-\mathbb{E}_{\mathbf{x} \sim P}[\log P(x)]=-\sum_{x} P(x) \log P(x) \] 这里乘了概率 P(x),等于计算了平均最小编码长度。 2.2 特性 接近均匀分布的概率分布具有较高的熵 接近确定性的分布 (输出几乎可以确定) 具有较低的熵 2.3 实例 1234567891011impor ...
论文阅读_PaLM
Created2023-03-17|2_Note0_Technic2_算法6_自然语言其它LLM
name_ch: PaLM:使用 Pathways 的扩展语言建模 name_en: PaLM:Scaling Language Modeling with Pathways paper_addr: http://arxiv.org/abs/2204.02311 date_publish: 2022-10-05 读后感 论文主要介绍了 Google 的超大模型 PaLM,它在多数任务上都超过了 SOTA,其主因是使用模型使用了大量参数和数据训练,作者认为当模型大到一定程度后,其性能也能飞跃,而 PathWay 技术是其大规模训练的基础。 和其它模型相比,PaLM 更关注逻辑推理相关的任务,这也为后面的 PaLM-E 机器人行为规划奠定了基础。 动态路由层选择具体的路怎么走。 摘要 文中提出了 Pathways Language Model (PaLM),使用 6144 个 TPU v4 芯片训练,模型 540 B 参数,780 B 高质量 token,密集激活,Transformer 语言模型。在推理任务上表现很好,文中提出:扩展到巨大模型后,性能急剧提高(Pathways 是 Jef ...
论文阅读_Self_instruct
Created2023-03-16|2_Note0_Technic2_算法6_自然语言
12345name_ch: 自引导:用自我生成的指令调整语言模型name_en: Self-Instruct:Aligning Language Model with Self Generated Instructionspaper_addr: http://arxiv.org/abs/2212.10560code: https://github. com/yizhongw/self-instructdate_publish: 2022-12-20 读后感 文中提出了自引导框架,之前引导精调主要使用人工处理的数据,数据量和范围都有限,本文通过示范少量引导示例,让模型自己生成引导数据对模型进行优化。 摘要 用引导数据精调模型提升了模型适应新任务的能力,它依赖于人工的引导数据,在数量、多样性和创造力方面受到限制,因此阻碍了精调模型的通用性。文中提出了自引导框架,通过自引导来提高预训练语言模型的指令遵循能力。经过自引导可使基础模型的 GPT-3 提升 33%,与 InstructGPT001 差不多的效果。 介绍 2022 年以后的大模型一般都使用了预训练和引导使用人工标注引导的技术。PRO ...
ChatGPT_API
Created2023-03-11|2_Note0_Technic0_工具大模型OpenAI
1 用法 1.1 申请 API KEY openai平台,右上角 ->Personal->API Key->Create secret key,然后将 key 加入代码。 ChatGPT3.5 收费的单位,是“$0.002 per 1k tokens”,每 1000 个 tokens 需要花费 0.002 美元。 1.2 代码 1.2.1 命令行 1234567curl https://api.openai.com/v1/chat/completions \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-3.5-turbo", "messages": [{"role": "user", "content": "Wh ...
论文阅读_Kosmos-1
Created2023-03-11|2_Note0_Technic2_算法5_模型结构多模态
12345name_ch: 语言并非你所需要的全部:让感知与语言模型保持一致name_en: Language Is Not All You Need:Aligning Perception with Language Modelspaper_addr: http://arxiv.org/abs/2302.14045code: https://github.com/microsoft/unilmdate_publish: 2023-03-01 读后感 文章主要研究视觉和文本领域的对齐,具体应用是看图回答问题。 文中做了大量工具,在评测部分可以看到它在多领域多个数据集上对模型进行了评测,很多领域做了尝试。文中也没太说具体是怎么做的,主要是提出概念,展示能力。 摘要 KOSMOS - 1 是一种多模态语言模型,能够感知通用模态、遵循指令、在语境中学习并产生输出。 The limits of my language means the limits of my world. Ludwig Wittgenstein 作者还引用了一句话:我的语言的极限意味着我的世界的极限。 KOSMOS ...
论文阅读_Visual_ChatGPT
Created2023-03-11|2_Note0_Technic2_算法5_模型结构多模态
name_ch: Visual Chatgpt:使用可视化基础模型进行交谈、绘图和编辑 name_en: Visual ChatGPT:Talking, Drawing and Editing with Visual Foundation Models paper_addr: http://arxiv.org/abs/2303.04671 code: https://github.com/microsoft/visual-chatgpt date_publish: 2023-03-08 读后感 在 ChatGPT 和图像构建方法间做了桥接,和其它模型相比,除了利用大语言模型中的知识,还利用了 ChatGPT 强化学习带来的能力,是一个结合已有技术的一个优雅示例。 本文将 CoT 的潜力扩展到大规模任务,包括但不限于文本生成高清图像、图像到图像的翻译、图像到文本的生成等。CoT 指的是 Chain-of-Thought 思想链,主要指模型的多步推理能力,以解决更为复杂的问题。 主要对聊天的场景进行优化,在提示上作文章。即:在 ChatGPT 外边包了一层,这也是当前最常见的用法。文章偏工 ...
论文阅读_PaLM-E
Created2023-03-11|2_Note0_Technic2_算法7_模型增强AgentAgent论文
name_ch: Palm-E:具身多模态语言模型实现 name_en: PaLM-E:An Embodied Multimodal Language Model paper_addr: http://arxiv.org/abs/2303.03378 date_publish: 2023-03-06 code: https://palm-e.github.io 1 读后感 Embodied 一般译作“具身”,是一种基于身体经验和感知的认知学科,旨在研究人类知觉、思想和行动的相互作用。 自然语言模型包含了大量关于世界的内化知识,但是不“落地”,本文通过多模态接入了视频,传感器,将大模型学到的知识应用于机器人领域,进一步解决世界中的交互问题。PaLM-E 直接产生动作的计划,从而让机器人以规划过程。 将字,图,传感器的结果等都 Embedding 映射到同一空间,在对模型结构改动小的情况下,同时使用了多模态数据。 文中还测试了将训练不同任务的训练数据放一起训练后三个模型效果都有提升,即举一返三的效果。 2 介绍 提出了多模态语言模型,将现实世界中连续的传感器数据接入语言模型,从而建立了词语 ...
7_1_强化学习_ChatGPT为什么使用强化学习
Created2023-03-10|2_Note0_Technic2_算法15_强化学习
最近出现很多 ChatGPT 相关论文,但基本都是讨论其使用场景和伦理问题,至于其原理,ChatGPT 在其 主页上 介绍,它使用来自人类反馈的强化学习训练模型,方法与 InstructGPT 相同,只在数据收集上有细微的差别。 那么,InstructGPT 和 ChatGPT 为什么使用强化学习呢?先看个示例: 聊天示例|500 先不论答案是否正确,回答依赖之前的对话,且不仅是前一句。 强化学习用于解决具有马尔可夫性的问题,马尔可夫性是指每个状态仅依赖前一个状态,而这种链式的关系,又使历史信息被传递到了未来。 强化学习使用的场景是 马尔可夫决策过程,包含以下核心点: 随机过程:人机聊天你一句我一句 马尔可夫性:回答依赖问题 奖利:问题可能有多种答案,答案没有绝对的对错,但提问者会对某个答案更满意 行为:每一次决定如何回答都对后续对话走向产生影响 可以看到聊天的场景是一个马尔可夫决策过程。 进而产生了另一个问题:模型需要大量数据训练,如果用户问个问题,出三个答案,让用户选一个,收集以用于训练模型。这肯定是不够友好,软件在初期效果不佳时也不会有人去用。且有些用户的回答还可能误 ...
论文阅读_近端策略优化_PPO
Created2023-03-04|2_Note0_Technic2_算法15_强化学习
12345name_ch: 近端策略优化算法name_en: Proximal Policy Optimization Algorithmspaper_addr: http://arxiv.org/abs/1707.06347date_publish: 2017-08-28 读后感 PPO 近端策略优化是一种强化学习算法,具体是对深度学习策略梯度方法的优化。 策略是强化学习中用于决定在每个时刻采取哪个动作的函数。近端约束用于限制策略的变化,以避免过于激进地改变策略。 文中介绍了两种方法:截断和 KL 散度,近端约束通常使用梯度截断来实现,即将梯度限制在一个特定范围内,让学习的步调不要太大。 介绍 一种改进版的强化学习策略梯度算法。它从与环境交互的数据中采样。不同于标准的策略梯度方法对每次采样执行一次梯度更新,文中提出了一个新的目标函数,可以实现多个 epoch 的 minibatch 数据更新,另外,它是 TRPO 的改进算法,相对 TRPO 更为简单,InstructGPT 的强化学习用的就是 PPO(ChatGPT 可能也是)。 方法 优化算法 文章介绍了三种方法,其差别主要在损失 ...
1…363738…84
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
834
Tags
257
Categories
173
Follow Me
Announcement
This is my Blog
Recent Post
优化阅读过程2025-07-14
对谈_250706_关系中的尊严2025-07-14
稳定币2025-07-14
MCP_实用场景讨论2025-07-14
国内外云主机价格对比2025-07-12
Categories
  • 0_IMO78
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听76
      • 01_自我建构29
        • 实修3
        • 思考与觉悟14
Tags
菜谱 反思 关系规则 特征工程 GitHub Actions 情绪管理 现实认知 大模型 对谈 读书 自动化 深度学习/扩散模型 AI功能 #编程语言/前端 音视频处理 深度学习/工具 #Python LLM 软件版权 生物医学 开发 机器学习 随笔 嵌入表示 Transformer 世界观 概率分布 焦虑 神经网络 后端测试 机器学习/时序 自信 操作系统/Linux Docker 生活技巧 社交 数据存储/ES Python Ubuntu 浏览器插件
Archives
  • July 202528
  • June 202539
  • May 202530
  • April 202516
  • March 20259
  • February 20252
  • January 20256
  • December 20242
Info
Article :
834
Total Count :
1154.1k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database