Yan 的杂物志_个人主页分享

Created2021-02-17|2_Note0_Technic0_工具版本管理

#版本管理 1. 配置 git 参数 1234567$ git config --global http.postBuffer 524288000 # 加大缓存$ git config --global core.compression -1 # 设置默认压缩方法$ export GIT_TRACE_PACKET=1 # 打开调示信息$ export GIT_TRACE=1$ export GIT_CURL_VERBOSE=1$ git config --global http.lowSpeedLimit 0 # 设置最低速度$ git config --global http.lowSpeedTime 999999 # 设置最低速度时间，单位秒设置好之后重新下载 2. 只下载某一分支 1$ git clone --depth 1 --branch 分支名 https://github.com/xxx.git 3. 参考详细介绍 git clone --depth=1 的用法 https://blog.csdn.net/qq_43827595/article/details/ ...

论文阅读_GBDT能否被深度学习取代TabNet

Created2021-02-17|2_Note0_Technic2_算法4_机器学习XGBoost

论文阅读：GBDT 能否被深度学习取代 TabNet 论文名称：《TabNet: Attentive Interpretable Tabular Learning》论文地址：https://arxiv.org/abs/1908.07442 相关代码：https://github.com/dreamquark-ai/tabnet )Pytorch 版本（目前 star:778）《TabNet: Attentive Interpretable Tabular Learning》是 google 2019 年底的一篇论文，目前已更新到 v5 版本。其目标是使用深度学习注意力网络，构建具有可解释性的用于表格数据的模型；并且可以利用大量无标注数据，使用自监督学习的方法提高模型效果。简介深度学习网络在图像、文本、声音等领域都具有经典框架并取得很好的效果，但对于最常用的数据表（由类别和数值型数据组成）至今没有通用的深度学习经典框架。在数据表领域更常见的方法是使用集成决策树，这主要是由于：它能在超平面上计算出数据切分边界，具有可解释性，且训练速度快；另一方面也源于之前的深度学习模型设计出的结构 ...

特征筛选工具

Created2021-01-24|2_Note0_Technic2_算法3_数据数据分析

特征筛选工具做模型时常常是特征越多模型准确率越高（至少在训练集上）。但过多的特征又增加了数据收集、处理、存储的工作量，以及模型的复杂度。在保证模型质量的前提下，我们希望尽量少地使用特征，这样也间接地加强了模型的可解释性。一般来说，为避免过拟合，特征尽量控制在实例个数的 1/20 以下，比如有 3000 个实例，则特征最好控制在 150 以下。除了特征的具体个数，特征工程中也经常遇到某些特征严重缺失，特征相关性强，一些特征不但无法给模型带来贡献，反而带来噪声等问题。本篇介绍特征筛选工具 feature-selector，在 github 上有 1.8K 星，它使用少量的代码解决了特征筛选中的常见问题，用法简单，便于扩展；同时也提供了作图方法，以更好地呈现特征效果。下载地址 https://github.com/WillKoehrsen/feature-selector 核心代码其核心代码文件只有 feature_selector/feature_selector.py（600 多行代码），所有方法都定义在 FeatureSelector 类中，因此，不用安装，只需要将该文件复 ...

论文阅读_分类模型的可解释性

Created2020-12-11|2_Note0_Technic2_算法14_模型解释

#论文阅读 #模型解释论文题目：《Why Should I Trust You? Explaining the Predictions of Any Classifier》论文地址：https://chu-data-lab.github.io/CS8803Fall2018/CS8803-Fall2018-DML-Papers/lime.pdf 模型可解释性论文列表：https://github.com/oneTaken/awesome_deep_learning_interpretability 《Why Should I Trust You? Explaining the Predictions of Any Classifier》是 2016 年发表在 KDD 上的论文，至今被引用 2984 次。文中介绍了可以应用于任何分类模型的模型解释方法。很多复杂的机器学习模型和深度学习模型，都被外界视为黑盒，如何对用户解释它的结果、评价其效果，让用户放心地使用，尤其是在医疗这种性命攸关的领域，对于模型推广至关重要。文中提出了用于解释分类模型的 LIME 方法。在机器学习领域，一般在训 ...

论文阅读_自然语言模型GPT-3

Created2020-12-11|2_Note0_Technic2_算法6_自然语言GPT

自然语言模型 GPT-3 论文：https://arxiv.org/abs/2005.14165 代码：https://github.com/openai/gpt-3 OpenAI 于 2020 年 6 月发表了 GPT-3 论文《Language Models are Few-Shot Learners》，模型包括 1750 亿参数，比之前最大模型又大了 10 倍，使用 45T 数据训练，31 位作者，论文长达 75 页，尝试了不同量级的 GPT-3 模型，在 20 多个 NLP 数据集上做了评价。其核心是不使用 Fine-tune 的 GPT-3 模型。目前前沿的自然语言模型一般是先用大规模无监督数据预测训练（pretrain）模型之后，然后使用带标注的领域数据微调模型 (fine-tune)，费时费力，且有些领域难以实现标注；模型也可能被领域数据的分布带偏，从而损失了泛化能力；另外，微调后的模型只能解决特定问题，不像人类，可以在众多类似的问题之间切换，并使用综合技能解决复杂的问题。 Pretrain&fine-tune 方法一般用于有大量标注的数据（带标注数据一般含几千 ...

读懂英文文章所需的单词量

Created2020-11-27|2_Note0_Technic6_思考

简介备考托福，GRE 需要背上万单词，除去考试通关的因素，就想看看是不是真有必要花时间去背那么多单词。实验使用从初中到 GRE 不同等级考试要求的单词表，代入 Brown 文本数据集，评估背会各等级单词后，能看懂多大比例的文本。比如：高中毕业要求 4000 左右单词量，背会后对于取自不同领域的各种文本，能看懂句中单词的比例是多少。从实验结果可以看到，即使背会了 GRE 要求的 15000+ 以上，还会有很多词不认识，如一些专业领域的词汇。当然，如果就认识 200 个词，那也确实太少了。因此，本文将讨论对于不同学习阶段，背多少词，背哪些词性价比最高。数据和方法资源数据集使用初中，高中，大学四六级，专八，雅思，托福，GRE 的单词表。另外，加入了初一上半学期（这个学期基本都在复习小学内容，可近似地视为小学毕业水平），以及 Brown 数据集中的高频单词。评价数据集使用自然语言处理 NLTK 自带的 Brown 语料库，它创建于 1961 年，包含来自五百多个不同来源的文本，包含新闻，社论等类型。是一个覆盖类型相对全面的语料库，其中包含 5 万多句子，116 万多单词。方法 ...

论文阅读_BiLSTM-CRF实现序列标注

Created2020-11-01|2_Note0_Technic2_算法6_自然语言特定功能模型

论文阅读：BiLSTM-CRF 实现序列标注论文名称：《Bidirectional LSTM-CRF Models for Sequence Tagging》论文地址：https://arxiv.org/pdf/1508.01991v1.pdf 相关代码：https://github.com/BrikerMan/Kashgari（Keras）《Bidirectional LSTM-CRF Models for Sequence Tagging》是 Baidu Research 在 2015 年发表的一篇论文，它使用双向长短期记忆网络 LSTM 加条件随机场 CRF 的方式解决文本标注的问题。该方法至今仍是命名实体识别的主流方法之一。之前一直不理解的是 RNN、LSTM、CRF、HMM 都可以单独实现文本标注，为什么要将 LSTM 和 CRF 结合起来？本文就来看看它是如何实现的。文后结合命名实体识别 NER，展示了它的具体使用方法。文本标注用途非常广泛，不仅标注切分，还可以通过标注拆分出关键信息，供下游应用使用。在该文发表之前，实现文本标注常用的方法有线性统计模型，比如隐马尔 ...

20_少儿Python编程_第二十讲：编程技巧

Created2020-10-31|2_Note0_Technic3_编程少儿编程

少儿 Python 编程 _ 第二十讲：编程技巧在学习编程的过程中，起初新手开发者对程序没有什么概念，先讲解习惯和注意事项，不但没什么效果，注意事项太多，反而提高了编程的难度；往往在自己遇到问题后，经过思考，印象更加深刻。之前在每一讲课后练习中，也加入了一些技巧说明，但比较分散。本讲将总结编写程序过程中遇到的各种问题和编程习惯。 20.1 编程习惯写程序最重要的是实现功能，在实现功能的基础上，好的编程习惯，让代码更清晰，更容易理解，无论是过一段时间自己再看，还是给别人使用都能节约大量时间；同时，好的编程习惯让代码在不同运行环境和操作系统中也能稳定地运行。 20.1.1 缩进缩进指代码与边界之间的距离，Python 使用缩进组织代码块，一般用冒号和缩进区分代码之间的层次。代码块缩进常出现在：函数体、循环体、以及判断语句之后。对 Python 编程来说，缩进是必不可少的；其它编程语言，也大都包括缩进，但有的不是必须缩进，比如 C 语言用大括号括住循环体内容，但一般程序员也会使用空格缩进，这样更容易看到代码的层次：直观地看到循环从哪里开始，到哪里结束，缩进也是一种良好的编程习惯。 1 ...

19_少儿Python编程_第十九讲：数据分析网站

Created2020-10-24|2_Note0_Technic3_编程少儿编程

少儿 Python 编程 _ 第十九讲：数据分析网站本讲是一个综合实例，结合了数据分析和构建网站技术，提供用户通过浏览器上传文件，在服务端实现分析上传的数据，并生成动态统计表格，回传给用户端。其中用到表单上传文件、读取 Excel 数据表文件、统计图表、生成动态网页等技术。 19.1 上传文件让用户上传文件，处理后再把结果返回给用户，是一个很常用的操作，比如用户上传一张相片，服务器端经过美颜或者换背景处理后显示在网页上；又如用户上传一个 Excel 数据表文件，数据统计分析后把统计结果显示给用户。开发者提供前端和后端服务。用户使用网络中任意一台计算机或者手机，只需要用浏览器即可实现需要的功能，无需安装任何软件。上传文件功能也可通过表单实现。本例展示了上传文件的方法。为简化代码逻辑，将 HTML 模板也写入了 Python 代码。 1234567891011121314151617181920212223242526272829303101 from flask import Flask,request,redirect,url_for02 import os03 04 UPLO ...

ubuntu重启后找不到gpudriver

Created2020-10-14|2_Note0_Technic2_算法5_模型结构环境

ubuntu 重启后找不到 gpu driver 使用 nvidia-smi 提示（此时 X-window 也无法正常启动，只能显示输密码界面）： NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 用以下命令自动重装驱动： $ sudo ubuntu-drivers autoinstall 此时可正常使用 nvidia-smi，启动 gpu docker 时又报错。用以下命令查看驱动情况： $ nvidia-container-cli -k -d /dev/tty info 也报错。分析发现系统自动安装的 driver 是 430 版本（之前好像安装过 440 或 450，重启后不能正常使用）。因此，用以下命令安装 430 配套的 libcuda1： $ sudo apt-get install libcuda1-430 安装后 docker 也可 ...