Yan 的杂物志_个人主页分享

Created2018-12-19|2_Note0_Technic3_编程Python大数据

一些零碎的 mathplotlib 小技巧说明一些零碎的 mathplotlib 小技巧怎么让图显得更高级 1. 改字体大小：标题，子标题，标注分别不用同大小的字体，一遍文章中所有图都有相同的 style。 2. 注意子图的间距 3. 注意对齐方向：居中，居左 4. 注意配色：不使用红绿蓝等纯色 5. 柱图，线图，饼图使用至少两种以上 6. 对一组图使用相同的 X,Y 轴范围 7. 注意线的粗细，点的大小线的粗细点的大小 plt.plot(xx, linewidth=1.0) plt.plot(xx, 'o', markersize=1) 横轴显示时间日期 df['datetime'] = df['datestr'].apply(lambda x: datetime.datetime.strptime(x, "%Y-%m-%d")) 字体大小 figure.suptitle('xxxx', fontsize=15) plt.tick_params(labelsize=6) 显示高分辨率 figure = plt.figure(figsize=(8,6), dpi=300) 其 ...

图像处理之_增强现实工具ARToolKit

Created2018-12-16|2_Note0_Technic2_算法8_图形图像基础方法

图像处理之 _ 增强现实工具 ARToolKit #图形图像 1. 增强现实增强现实（AR）是将电脑虚拟的图像覆盖到真实世界画面中，这个技术在工业和理论研究方面都存在着极大的潜能。 2. 相关概念 (1) ARToolkit ARToolkit，是一个开源的 AR(增强现实)SDK。它是用 C/C++ 语言编写的库，通过它可以很容易地编写增强现实应用程序。增强现实中最困难的部分在于实时的将虚拟图像覆盖到用户视口，并且和真实世界中的对象精确对齐。ARToolKit 使用电脑图像技术计算摄像机和标记卡之间的相对位置，从而使程序员能够将他们的虚拟对象覆盖到标记卡上面。ARToolKit 提供的快速和准确的标记跟踪，能够让你快速的开发出许多更新更有趣的 AR 程序。 (2) OpenGL OpenGL 是 Open Graphics Library，用于渲染 2D、3D 矢量图形的跨语言、跨平台的应用程序编程接口（API），可绘制从简单的图形到复杂的三维景象。 (3) OpenCV OpenCV 是 Open Source Computer Vision Library。它提供图像 ...

Ubuntu支持Thinkpad无线网卡

Created2018-12-15|2_Note0_Technic4_系统Linux驱动

Ubuntu 支持 Thinkpad 无线网卡 #操作系统/Linux 最近新入了一个 Thinkpad，安装 ubuntu16.04 之后，不能识别无线网卡，解法如下： 1.查看无线网卡型号 1$ lspci 我无线网卡的型号是 Realtek Semiconductor Co., Ltd. Device c821 2.下载驱动程序，编译内核模块 12345$ git clone https://github.com/tomaspinho/rtl8821ce$ cd rtl8821ce$ chmod +x dkms-install.sh$ chmod +x dkms-remove.sh$ sudo ./dkms-install.sh 如果网卡型号和我的不同，可以试试 realtek 的其它驱动包: git clone https://github.com/lwfinger/rtlwifi_new 3.加载网卡驱动查看驱动模块是否被加载 1$ lspci -v 这时看到 Device c821 设备下面有 Kernal modeles, 但是没有 Moder driver in u ...

Ubuntu笔记本双屏的切换

Created2018-12-15|2_Note0_Technic4_系统Linux系统

Ubuntu 笔记本双屏的切换 #操作系统/Linux 同屏 xrandr --output eDP-1 --same-as DP-2 --auto 分屏 xrandr --output eDP-1 --right-of DP-2 --auto

实战_瑞金医院MMC知识图谱大赛初赛

Created2018-12-01|2_Note0_Technic2_算法4_机器学习实战

实战 _ 瑞金医院 MMC 知识图谱大赛初赛 1. 说明《瑞金医院 MMC 人工智能辅助构建知识图谱大赛》是一个天池的自然语言处理相关的比赛，初赛是命名实体识别（Named Entity Recognition，简称 NER）。具体说，就是从医学文档里标注出药名，疾病，病因，临床表现，检查方法等十二种实体的类别和位置。这是一个有监督学习，它的训练集是标注好的医学文档。还是延续以往比赛的思路，找一个类似的简单项目，在其上修修改改，于是找到了 " 参考 1" 中的例程，它是一个在中文文本中标注地名，人名，组织名的程序，使用工具是 tensorflow，算法是 BiLSTM-CRF。花了不到两天的时间，混进了复赛，虽说是在别人的代码上修修改改，但也不失为一个 NLP 相关的深度学习入门，顺便熟悉一下如何使用 tensorflow。我做的工作很简单：参考代码 2000 多行，修改了不到 200 行，主要就是把那套代码对这个项目做一个适配，没啥可说的，本文主要梳理了深度学习如何应用于自然语言处理，算法原理，以及 Tensorflow 的一些用法。 2. 深度学习能解决自然语言处理 ...

Dash入门

Created2018-11-25|2_Note0_Technic3_编程Python大数据

Dash 入门 1. 说明大数据开发过程中，我们常常需要向别人展示一些统计结果，有时候还是实时的统计结果。最好能以网页方式提供，让别人在他的机器上，使用浏览器也能访问。这时候统计工具往往使用 Python，而把分析图表画出来使用 JavaScript，需要搭建 web 服务，还涉及中间过程的数据衔接。而 Dash 能帮我们实现以上所有的工作。 Dash 是 Python 的一个库，使用 pip 即可安装。用它可以启动一个 http server，python 调用它做图，而它内部将这些图置换成 JavaScript 显示，进行数据分析和展示。 2. 安装 1234$ pip install dash$ pip install dash-renderer$ pip install dash-html-components$ pip install dash-core-components 其中 html 与网页相关，比如用它实现 Title 显示及一些与用户的交互操作，core 是绘图部分，像我们常用的柱图，饼图，箱图，线图，都可以用它实现。 3. 简单 demo (1) 代 ...

数据迁移工具Kettle

Created2018-11-10|2_Note0_Technic3_编程其它编程

数据迁移工具 Kettle 1. 背景知识 (1) 什么是 ETL ETL 是 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、交互转换（transform）、加载（load）至目的端的过程。 (2) Kettle 简介 Kettle 是一款国外开源的 ETL 工具，纯 java 编写，可以在 Window、Linux、Unix 上运行，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员 MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。我们常用它定时将一些库的数据稍做转换后存入其它库。 (3) 工作机制 Kettle 中有两种脚本文件，transformation 和 job，transformation 完成针对数据的基础转换，job 则完成整个工作流的控制。 2. 安装和运行 (1) 安装 kettle 的最新下载地址：http://community.pentaho.com/projects/data-integration/ 我在 linux 下安装，机器之前已装好 java 环境，将 ...

几种常见的数学分布

Created2018-11-03|2_Note0_Technic2_算法3_数据分布

几种常见的数学分布 #数学 1. 什么是数学期望举个例子：某城市有 10 万个家庭，没有孩子的家庭有 1000 个，有一个孩子的家庭有 9 万个，有两个孩子的家庭有 6000 个，有 3 个孩子的家庭有 3000 个 (0 * 1000 + 1 * 90000 + 2 * 6000 + 3 * 3000) / 100000 = 1.11 数学期望 (mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和 0 * 0.01 + 1 * 0.9 + 2 * 0.06 + 3 * 0.03 = 1.11 2. 概率密度与累积分布概率密度一般的写法是：P(X=a) = …，即 X 等于某个值 a 的可能性累积分布一般的写法是：P(X<=a) = …，即 X 小于等于某个值 a 的所有可能性累加之和这二者千万别弄混，否则就会被各种公式绕晕。下图是增量分布的概率密度图（橙色）和累积分布图（蓝色）。 3. 常见的分布 (1) 离散分布：伯努利分布（零一分布，两点分布），二项分布，几何分布，泊松分布（Poisson 分布） (2) 连续分布： ...

调度工具Airflow

Created2018-10-27|2_Note0_Technic3_编程其它编程

调度工具 Airflow 1. 什么是 Airflow Airflow 是 Airbnb 开源的 data pipeline 调度和监控工作流的平台，用于用来创建、监控和调整 data pipeline(ETL)。 2. 简单的定时任务 cron 假设我们想要定时调用一个程序，比如说：每天定时从 Web 抓数据，我们可以使用 cron。cron 是一个 Linux 下的后台服务，用来定期的执行一些任务，在/etc/crontab 中设置后即可，基本写法如下： 12# 分钟小时日月周用户命令 17 * * * * root date >> /tmp/time.log 它的意思是每个小时的第 18 分钟，将当前时间写入 log 文件，注意各值的取值范围（分钟 0 - 59，小时 0 - 23，天 1 - 31，月 1 - 12，星期 0 - 6，0 表示星期天）修改/etc/crontab 后，还需要用 $ sudo service cron restart 命令重启 crontab 任务，才能生效。 3. 为什么要用 Airflow 有了 cro ...

机器学习之_逻辑回归

Created2018-10-13|2_Note0_Technic2_算法4_机器学习经典算法

机器学习之 _ 逻辑回归逻辑回归又称 logistic 回归，逻辑斯谛回归，是一种广义的线性回归分析模型。 1. Sigmod 函数 Sigmoid 函数也是神经网络中常用的函数，用于把 x 从负无穷到正无穷压缩到 y 从 0 到 1 之间。画出来就是一条 S 型曲线，如下图中的蓝色曲线：它以 0 点为中心对称，公式如下：当 x 值接近负无穷时，分母很大，S(x) 接近 0，当 x 接近正无穷时，分母接近 1，S(x) 接近 1，当 x 为 0 时，S(x) 为 1/2 在正中间。S 曲线的弯曲程度由 e 决定。它的导数是上图中的橙色曲线：导数的意义是变化率，当 x 很大时或很小时，S’(x) 接近 0，而在 x 接近 0 时，S’(x) 值最大，即 S 曲线在 0 点处变化剧烈，它勾勒出了 y 在 0 与 1 之间模棱两可的区域。 2. 逻辑斯谛分布必须满足逻辑斯谛分布，才能用逻辑回归。那么什么是逻辑斯谛分布？逻辑斯谛分布即增长分布，增长分布的分布函数是“增长函数”，公式如下：可以看到，它把 (x-μ)/γ代入 Sigmoid 函数。其中μ ...