avatar
Articles
851
Tags
236
Categories
189

Yan 的杂物志_个人主页分享
Search
Git_下载太慢的改进方法
Created2021-02-17|2_Note0_Technic0_工具版本管理
#版本管理 1. 配置 git 参数 1234567$ git config --global http.postBuffer 524288000 # 加大缓存$ git config --global core.compression -1 # 设置默认压缩方法$ export GIT_TRACE_PACKET=1 # 打开调示信息$ export GIT_TRACE=1$ export GIT_CURL_VERBOSE=1$ git config --global http.lowSpeedLimit 0 # 设置最低速度$ git config --global http.lowSpeedTime 999999 # 设置最低速度时间,单位秒 设置好之后重新下载 2. 只下载某一分支 1$ git clone --depth 1 --branch 分支名 https://github.com/xxx.git 3. 参考 详细介绍 git clone --depth=1 的用法 https://blog.csdn.net/qq_43827595/article/details/ ...
论文阅读_GBDT能否被深度学习取代TabNet
Created2021-02-17|2_Note0_Technic2_算法4_机器学习XGBoost
论文阅读:GBDT 能否被深度学习取代 TabNet 论文名称:《TabNet: Attentive Interpretable Tabular Learning》 论文地址:https://arxiv.org/abs/1908.07442 相关代码:https://github.com/dreamquark-ai/tabnet )Pytorch 版本(目前 star:778) 《TabNet: Attentive Interpretable Tabular Learning》是 google 2019 年底的一篇论文,目前已更新到 v5 版本。其目标是使用深度学习注意力网络,构建具有可解释性的用于表格数据的模型;并且可以利用大量无标注数据,使用自监督学习的方法提高模型效果。 简介 深度学习网络在图像、文本、声音等领域都具有经典框架并取得很好的效果,但对于最常用的数据表(由类别和数值型数据组成)至今没有通用的深度学习经典框架。在数据表领域更常见的方法是使用集成决策树,这主要是由于:它能在超平面上计算出数据切分边界,具有可解释性,且训练速度快;另一方面也源于之前的深度学习模型设计出的结构 ...
特征筛选工具
Created2021-01-24|2_Note0_Technic2_算法3_数据数据分析
特征筛选工具 做模型时常常是特征越多模型准确率越高(至少在训练集上)。但过多的特征又增加了数据收集、处理、存储的工作量,以及模型的复杂度。 在保证模型质量的前提下,我们希望尽量少地使用特征,这样也间接地加强了模型的可解释性。一般来说,为避免过拟合,特征尽量控制在实例个数的 1/20 以下,比如有 3000 个实例,则特征最好控制在 150 以下。 除了特征的具体个数,特征工程中也经常遇到某些特征严重缺失,特征相关性强,一些特征不但无法给模型带来贡献,反而带来噪声等问题。 本篇介绍特征筛选工具 feature-selector,在 github 上有 1.8K 星,它使用少量的代码解决了特征筛选中的常见问题,用法简单,便于扩展;同时也提供了作图方法,以更好地呈现特征效果。 下载地址 https://github.com/WillKoehrsen/feature-selector 核心代码 其核心代码文件只有 feature_selector/feature_selector.py(600 多行代码),所有方法都定义在 FeatureSelector 类中,因此,不用安装,只需要将该文件复 ...
论文阅读_分类模型的可解释性
Created2020-12-11|2_Note0_Technic2_算法14_模型解释
#论文阅读 #模型解释 论文题目:《Why Should I Trust You? Explaining the Predictions of Any Classifier》 论文地址:https://chu-data-lab.github.io/CS8803Fall2018/CS8803-Fall2018-DML-Papers/lime.pdf 模型可解释性论文列表:https://github.com/oneTaken/awesome_deep_learning_interpretability 《Why Should I Trust You? Explaining the Predictions of Any Classifier》是 2016 年发表在 KDD 上的论文,至今被引用 2984 次。文中介绍了可以应用于任何分类模型的模型解释方法。 很多复杂的机器学习模型和深度学习模型,都被外界视为黑盒,如何对用户解释它的结果、评价其效果,让用户放心地使用,尤其是在医疗这种性命攸关的领域,对于模型推广至关重要。文中提出了用于解释分类模型的 LIME 方法。 在机器学习领域,一般在训 ...
论文阅读_自然语言模型GPT-3
Created2020-12-11|2_Note0_Technic2_算法6_自然语言GPT
自然语言模型 GPT-3 论文:https://arxiv.org/abs/2005.14165 代码:https://github.com/openai/gpt-3 OpenAI 于 2020 年 6 月发表了 GPT-3 论文《Language Models are Few-Shot Learners》,模型包括 1750 亿参数,比之前最大模型又大了 10 倍,使用 45T 数据训练,31 位作者,论文长达 75 页,尝试了不同量级的 GPT-3 模型,在 20 多个 NLP 数据集上做了评价。其核心是不使用 Fine-tune 的 GPT-3 模型。 目前前沿的自然语言模型一般是先用大规模无监督数据预测训练(pretrain)模型之后,然后使用带标注的领域数据微调模型 (fine-tune),费时费力,且有些领域难以实现标注;模型也可能被领域数据的分布带偏,从而损失了泛化能力;另外,微调后的模型只能解决特定问题,不像人类,可以在众多类似的问题之间切换,并使用综合技能解决复杂的问题。 Pretrain&fine-tune 方法一般用于有大量标注的数据(带标注数据一般含几千 ...
读懂英文文章所需的单词量
Created2020-11-27|2_Note0_Technic6_思考
简介 备考托福,GRE 需要背上万单词,除去考试通关的因素,就想看看是不是真有必要花时间去背那么多单词。 实验使用从初中到 GRE 不同等级考试要求的单词表,代入 Brown 文本数据集,评估背会各等级单词后,能看懂多大比例的文本。比如:高中毕业要求 4000 左右单词量,背会后对于取自不同领域的各种文本,能看懂句中单词的比例是多少。 从实验结果可以看到,即使背会了 GRE 要求的 15000+ 以上,还会有很多词不认识,如一些专业领域的词汇。当然,如果就认识 200 个词,那也确实太少了。因此,本文将讨论对于不同学习阶段,背多少词,背哪些词性价比最高。 数据和方法 资源数据集 使用初中,高中,大学四六级,专八,雅思,托福,GRE 的单词表。另外,加入了初一上半学期(这个学期基本都在复习小学内容,可近似地视为小学毕业水平),以及 Brown 数据集中的高频单词。 评价数据集 使用自然语言处理 NLTK 自带的 Brown 语料库,它创建于 1961 年,包含来自五百多个不同来源的文本,包含新闻,社论等类型。是一个覆盖类型相对全面的语料库,其中包含 5 万多句子,116 万多单词。 方法 ...
论文阅读_BiLSTM-CRF实现序列标注
Created2020-11-01|2_Note0_Technic2_算法6_自然语言特定功能模型
论文阅读:BiLSTM-CRF 实现序列标注 论文名称:《Bidirectional LSTM-CRF Models for Sequence Tagging》 论文地址:https://arxiv.org/pdf/1508.01991v1.pdf 相关代码:https://github.com/BrikerMan/Kashgari(Keras) 《Bidirectional LSTM-CRF Models for Sequence Tagging》是 Baidu Research 在 2015 年发表的一篇论文,它使用双向长短期记忆网络 LSTM 加条件随机场 CRF 的方式解决文本标注的问题。该方法至今仍是命名实体识别的主流方法之一。 之前一直不理解的是 RNN、LSTM、CRF、HMM 都可以单独实现文本标注,为什么要将 LSTM 和 CRF 结合起来?本文就来看看它是如何实现的。文后结合命名实体识别 NER,展示了它的具体使用方法。 文本标注用途非常广泛,不仅标注切分,还可以通过标注拆分出关键信息,供下游应用使用。在该文发表之前,实现文本标注常用的方法有线性统计模型,比如隐马尔 ...
20_少儿Python编程_第二十讲 :编程技巧
Created2020-10-31|2_Note0_Technic3_编程少儿编程
少儿 Python 编程 _ 第二十讲:编程技巧 在学习编程的过程中,起初新手开发者对程序没有什么概念,先讲解习惯和注意事项,不但没什么效果,注意事项太多,反而提高了编程的难度;往往在自己遇到问题后,经过思考,印象更加深刻。之前在每一讲课后练习中,也加入了一些技巧说明,但比较分散。本讲将总结编写程序过程中遇到的各种问题和编程习惯。 20.1 编程习惯 写程序最重要的是实现功能,在实现功能的基础上,好的编程习惯,让代码更清晰,更容易理解,无论是过一段时间自己再看,还是给别人使用都能节约大量时间;同时,好的编程习惯让代码在不同运行环境和操作系统中也能稳定地运行。 20.1.1 缩进 缩进指代码与边界之间的距离,Python 使用缩进组织代码块,一般用冒号和缩进区分代码之间的层次。代码块缩进常出现在:函数体、循环体、以及判断语句之后。 对 Python 编程来说,缩进是必不可少的;其它编程语言,也大都包括缩进,但有的不是必须缩进,比如 C 语言用大括号括住循环体内容,但一般程序员也会使用空格缩进,这样更容易看到代码的层次:直观地看到循环从哪里开始,到哪里结束,缩进也是一种良好的编程习惯。 1 ...
19_少儿Python编程_第十九讲: 数据分析网站
Created2020-10-24|2_Note0_Technic3_编程少儿编程
少儿 Python 编程 _ 第十九讲:数据分析网站 本讲是一个综合实例,结合了数据分析和构建网站技术,提供用户通过浏览器上传文件,在服务端实现分析上传的数据,并生成动态统计表格,回传给用户端。其中用到表单上传文件、读取 Excel 数据表文件、统计图表、生成动态网页等技术。 19.1 上传文件 让用户上传文件,处理后再把结果返回给用户,是一个很常用的操作,比如用户上传一张相片,服务器端经过美颜或者换背景处理后显示在网页上;又如用户上传一个 Excel 数据表文件,数据统计分析后把统计结果显示给用户。开发者提供前端和后端服务。用户使用网络中任意一台计算机或者手机,只需要用浏览器即可实现需要的功能,无需安装任何软件。 上传文件功能也可通过表单实现。本例展示了上传文件的方法。为简化代码逻辑,将 HTML 模板也写入了 Python 代码。 1234567891011121314151617181920212223242526272829303101 from flask import Flask,request,redirect,url_for02 import os03  04 UPLO ...
ubuntu重启后找不到gpudriver
Created2020-10-14|2_Note0_Technic2_算法5_模型结构环境
ubuntu 重启后找不到 gpu driver 使用 nvidia-smi 提示(此时 X-window 也无法正常启动,只能显示输密码界面): NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 用以下命令自动重装驱动: $ sudo ubuntu-drivers autoinstall 此时可正常使用 nvidia-smi,启动 gpu docker 时又报错。 用以下命令查看驱动情况: $ nvidia-container-cli -k -d /dev/tty info 也报错。分析发现系统自动安装的 driver 是 430 版本(之前好像安装过 440 或 450,重启后不能正常使用)。 因此,用以下命令安装 430 配套的 libcuda1: $ sudo apt-get install libcuda1-430 安装后 docker 也可 ...
1…495051…86
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
851
Tags
236
Categories
189
Follow Me
Announcement
This is my Blog
Recent Post
LLM+知识库_总结篇2026-04-10
LLM_知识库_02_记忆宫殿2026-04-10
LLM_知识库_03_LLM_Wiki2026-04-10
模仿欲望_读后感2026-04-07
OpenAI的CUA_ComputerUseAgent2026-04-07
Categories
  • 0_IMO2
    • 工作1
    • 方法1
      • 工作1
  • 1_Data11
    • 生活9
      • 主食3
      • 菜3
Tags
图形图像 安卓开发 预算 关系抽取 策略 效率工具 后端 笔记工具 自然 生物医学 运动 AI功能 咖啡拉花 音视频处理 理财规划 数据分析 金融市场 android 心理 嵌入表示 开源项目 情绪分析 菜谱 加密货币 Ubuntu 日常琐事 公众号 开源社区 GitHub Actions 指标 视频处理 辅助编程 AI绘画 云服务器 音乐 模型解释 智能家居 效率 插件推荐 协议
Archives
  • April 202616
  • March 20265
  • February 202637
  • January 20262
  • December 20252
  • November 202511
  • October 20258
  • September 20254
Info
Article :
851
Total Count :
1084.3k
UV :
PV :
Last Push :
©2020 - 2026 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database