avatar
Articles
851
Tags
236
Categories
189

Yan 的杂物志_个人主页分享
Search
论文阅读_知识蒸馏_MobileBERT
Created2022-09-12|2_Note0_Technic2_算法11_优化模型蒸馏
英文题目:MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices 中文题目:MobileBERT:面向资源有限设备的任务无关的压缩模型 论文地址:https://arxiv.org/pdf/2004.02984 领域:自然语言处理,模型蒸馏 发表时间:2020 作者:Zhiqing Sun,卡内基梅隆大学,谷歌 出处:ACL 被引量:162 代码和数据:https://github.com/google-research/google-research/tree/master/mobilebert 阅读时间:22.06.16 读后感 使用了瓶颈结构,同时微调模型实现加速,最终实现了任务无关的蒸馏 BERT 模型。 介绍 大模型效果好,但受资源限制。文中提出了 MobileBERT 模型对 BERT 模型进行压缩和加速,它和原始 BERT 一样,是任务无关的,可以泛化到不同下游任务。MobileBERT 是对 BERT LARGE 的优化,使用瓶颈结构。具体实现分两步:先训练一个倒瓶颈的特殊的老师模型,然 ...
论文阅读_神经网络知识蒸馏_DK
Created2022-09-12|2_Note0_Technic2_算法5_模型结构网络结构
英文题目:Distilling the Knowledge in a Neural Network 中文题目:神经网络知识蒸馏 论文地址:https://arxiv.org/pdf/1503.02531.pdf 领域:深度学习 发表时间:2015 作者:Geoffrey Hinton,谷歌 出处:NIPS 被引量:6972 阅读时间:2022.09.21 读后感 这是最早提出蒸馏模型的文章,它训练老师 Teacher/学生 Student 两个模型,首先训练大而全的 Teacher,然后用 Teacher 蒸馏出小而精的 Student,S 不仅学习 T 的对错判断,还学到更多细节,比如为什么错(错的离不离谱)。 介绍 作者提出训练和部署的模型未必是同一模型。大而复杂的模型效果 (后简称 Teacher/T) 好,但相对复杂,预测时间长,占空间更大。作者提出如何把集成模型或大模型用一个小模型 (后简称 Student/S) 实现。训练阶段产出大而全的模型,然后用蒸馏技术提炼小模型,以便部署。 和压缩参数相比,在输入输出之间建立新的映射可能是更好的模型瘦身方法。一般建模方法是:模型主要学 ...
论文阅读_自然语言模型加知识图谱_DKPLM
Created2022-09-11|2_Note0_Technic2_算法12_图神经网络
英文题目:DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for Natural Language Understanding 中文题目:DKPLM: 可分解的利用知识增强的预训练语言模型 论文地址:https://arxiv.org/abs/2112.01047 领域:自然语言处理, 知识图谱 发表时间:2021.12 作者:Taolin Zhang 等,华东师范大学,阿里团队 出处:AAAI-2022 代码和数据:https://github.com/alibaba/EasyNLP(集成于 EasyNLP) 阅读时间:2022.09.11 读后感 自然语言和知识图结合的一种新尝试,几种优化方法比较有意思。尤其是他对长尾信息的分析,很有启发性:即使在无监督学习的情况下,也要尽量使用重要的数据训练模型。另外,还给出了具体方法,比如实体出现频率高于均值,则忽略它… 介绍 加入知识增强的自然语言模型简称 KEPLM,它将知识图中的三元组注入 NLP 模型,以提升模型对语言的理解能力。在模型使用时需要知识搜索 ...
设置Ubuntu软件源
Created2022-09-03|2_Note0_Technic4_系统Linux系统
1 设置 Ubuntu 软件源 1 查看当前系统版本 1$ lsb_release -a 2 查看是否存在该版本的源 http://mirrors.163.com/ubuntu/dists/ http://mirrors.aliyun.com/ubuntu/dists/ 3 sources.list 模板 (将 TODO 改为版本代号) 12345678910deb http://mirrors.163.com/ubuntu/ TODO main restricted universe multiversedeb http://mirrors.163.com/ubuntu/ TODO-security main restricted universe multiversedeb http://mirrors.163.com/ubuntu/ TODO-updates main restricted universe multiversedeb http://mirrors.163.com/ubuntu/ TODO-proposed main restricted universe mul ...
设置wifi连接优先级
Created2022-09-03|2_Note0_Technic4_系统Linux系统
查看当前可用 wifi 1$ nmcli dev wifi list 连接 wifi 1$ sudo nmcli dev wifi connect xxx password xxx 管理网络 1$ nmcli con show 关闭某连接 1$ nmcli con down xxx 启动某连接 1$ nmcli con up xxx 设置连接优先级 1$ nmcli connection modify xxx connection.autoconnect-priority 20 优先级默认为 0,正数优先级高,负数低 查看优先级 1$ nmcli connection show xxx|grep priority
设置电脑休眠
Created2022-09-03|2_Note0_Technic4_系统Linux系统
不允许休眠 1$ systemctl mask sleep.target suspend.target hibernate.target hybrid-sleep.target 查看状态 1$ systemctl status sleep.target suspend.target hibernate.target hybrid-sleep.target 允许休眠 1$ systemctl unmask sleep.target suspend.target hibernate.target hybrid-sleep.target 参考: https://zhuanlan.zhihu.com/p/468870436 https://blog.csdn.net/weixin_44120025/article/details/123184263
SHAP解释模型二
Created2022-08-21|2_Note0_Technic2_算法14_模型解释
SHAP 解释模型(二) 本文在 SHAP解析模型 之后,又尝试了一些 SHAP 新版本的进阶用法,整理并与大家分享. 1 环境配置 以下实验使用当前最新版本 shap:0.41.0,同时安装 xgboost 作为预测模型,并使用较高版本的 matplotlib(低版本有时画图报错). 123$ pip install shap==0.41.0$ pip install xgboost==0.82$ pip install matplotlib==3.5.2 2 实验数据 仍延用波士顿房价数据集,由于有些方法需要 explainer 对象,因此构造了 shap_value_obj 12345678import shapimport xgboostX,y = shap.datasets.boston()model = xgboost.train({"learning_rate": 0.01}, xgboost.DMatrix(X, label=y), 100)explainer = shap.TreeExplainer(model) shap_va ...
论文阅读_广义加性模型
Created2022-08-20|2_Note0_Technic2_算法14_模型解释
英文题目:Intelligible Models for Classification and Regression 中文题目:可理解的分类和回归模型 论文地址:https://www.doc88.com/p-41099846725043.html 领域:模型可解释性,广义加性模型,机器学习 发表时间:2012 作者:Yin Lou,Rich Caruana(模型可解释性大佬),康耐尔大学,微软 出处:KDD 被引量:256 代码和数据:https://github.com/interpretml/interpret 阅读时间:220819 读后感 加性模型的准确性优于线性模型,差于梯度决策树和深度学习模型.它在模型精度和可解释性间取平衡.其核心原理是针对单个特征建立模型(可以是非线性模型),然后把这些复杂模型加在一起形成最终模型.本文描述了具体实现方法. 介绍 复杂模型虽然预测精度高,但可解释性较差,因为很难判断单个特征在复杂模型中的贡献度.本文目标是建立尽量准确且可解释的模型,让用户可以理解每个特征的贡献度.使用广义加性模型(GAMs)方法,其核心算法如下: Pasted im ...
论文阅读_对比学习_SimCLR
Created2022-08-14|2_Note0_Technic2_算法5_模型结构网络结构
12345678910英文题目:A Simple Framework for Contrastive Learning of Visual Representations中文题目:视觉表征对比学习的简单框架论文地址:https://arxiv.org/abs/2002.05709v2领域:深度学习,知识表示,半监督学习,对比学习发表时间:2020作者:Ting Chen,Hinton 团队,Google Research出处:ICML被引量:1734代码和数据:https://github.com/leftthomas/SimCLR阅读时间:22.08.14 读后感 众所周知,有监督学习相比于无监督学习和半监督学习速度更快,效果更好,但也存在一些问题,比如难以泛化解决其它问题,需要高成本的标注等等. 对比学习是一种半监督学习(自监督学习),它可以生成一种表示,用一组数表征一个时间序列,一句话,一张图... 然后再代入下游任务.具体方法是用实例间的相似和差异学习怎么描述这个实例,从而捕捉内在的不变性;从高维到低维,构建更抽象地表示. 个人感觉有监督和半监督学习各有优势,实际建模时有效结合 ...
啥是图神经网络
Created2022-08-07|2_Note0_Technic2_算法13_知识图谱
昨天有个朋友问我:"你了解图神经网络么?",想了半天,不知从何说起.这半年,读了一些相关论文,TransR,TransE,GNN,GCN,GIN,还有一些综述性的.好像大概能说明白,它是怎么做的,但又不能完全说明白它是干啥的,进而扩展到自然语言模型,知识图谱,你说它们是干啥的?在网上一搜,出来的往往是具体实现方法(how),而具体干啥讲得很抽象(what). 试试说说我的理解,也不一定对:从根本上看,它们都是知识表示,文本向量化.通俗地讲就是把文本编码成一串数,文本可能是一个字("生"),一个词("苹果"),一个短语("你说呢")或者一个句子("我是一个句子")... 让文字可以量化,比较,计算. 比如:提到自然语言模型,可能首先想到的是 BERT,GTP,它可以用来做阅读理解,完型填空,判断对错,续写文章等等.模型将一段文字转换成一串数,再传入下游任务(比如:阅读理解),参与决策具体问题.而 BERT 类模型解决的问题是某个字(比如"生")在不同上下文环境下到底是什么意思?然后把它在这里的意思转换成一串数. 再如:知识图谱,一度困惑它是干啥的?把文献或者网站上的大段文字通过命名识体识 ...
1…414243…86
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
851
Tags
236
Categories
189
Follow Me
Announcement
This is my Blog
Recent Post
LLM+知识库_总结篇2026-04-10
LLM_知识库_02_记忆宫殿2026-04-10
LLM_知识库_03_LLM_Wiki2026-04-10
模仿欲望_读后感2026-04-07
OpenAI的CUA_ComputerUseAgent2026-04-07
Categories
  • 0_IMO2
    • 工作1
    • 方法1
      • 工作1
  • 1_Data11
    • 生活9
      • 主食3
      • 菜3
Tags
图形图像 安卓开发 预算 关系抽取 策略 效率工具 后端 笔记工具 自然 生物医学 运动 AI功能 咖啡拉花 音视频处理 理财规划 数据分析 金融市场 android 心理 嵌入表示 开源项目 情绪分析 菜谱 加密货币 Ubuntu 日常琐事 公众号 开源社区 GitHub Actions 指标 视频处理 辅助编程 AI绘画 云服务器 音乐 模型解释 智能家居 效率 插件推荐 协议
Archives
  • April 202616
  • March 20265
  • February 202637
  • January 20262
  • December 20252
  • November 202511
  • October 20258
  • September 20254
Info
Article :
851
Total Count :
1084.3k
UV :
PV :
Last Push :
©2020 - 2026 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database