Yan 的杂物志_个人主页分享

Created2022-01-23|2_Note0_Technic2_算法6_自然语言BERT类

用字典提升基于 BERT 的中文标注效果论文题目：Lexicon Enhanced Chinese Sequence Labeling Using BERT Adapter 论文地址：https://arxiv.org/abs/2105.07148 读后感论文提出将字典融入 BERT 网络层记作字典加强 BERT（Lexicon Enhanced BERT，LEBERT)，用于提升中文标注效果。新模型在命名实体识别、分词、成份标注实验中均达到了目前最佳水平。简介这是一篇自表于 2021 ACL（NLP 顶会）的论文。由于存在分词（CWS）问题，中文面临更大的挑战，对多数任务，以字为单位比以词为单位效果更好。目前大多优化方法都是修改上层（网络末端），而未修改核心网络。文中提出的方法利用字典得到更多可能的分词，动态计算最佳分词方法，并修改了网络的 Transformers 层，如图 -1 中的右图所示： Pasted image 20220112130432.png 模型 Pasted image 20220112130755.png 模型的核心结构如图 -2 所示 ...

机器学习_条件随机场CRF

Created2022-01-16|2_Note0_Technic2_算法4_机器学习经典算法

条件随机场 CRF 简介在命名实体识别（后简称 NER）中，迄今绝大多数模型都使用神经网络和条件随机场结合的方法实现。所以，需要稍微了解一下 CRF 的原理。 NER 是自然语言处理中一个非常基础的任务，简单的说，就是识别句中的成份。比如 " 小明去学校 "，其中“小明”是人名，“去”是动词，“学校”是地点。如果把字当作处理单元，“学”字是动词还是地点，不仅取决于该字的意思，还取决于它的上下文。 CRF 可用于解决序列问题（前后状态存在相关性），比如根据第 i-1 个字来判断第 i 个字所充当的成份。当 CRF 与神经网络共同工作时，神经网络负责提取词义，CRF 将词义与上下文结合，以实现更准确地判断。原理这里涉及很多概念，比如最大团、马尔可夫性、马尔可夫链等等，本文不做展开，以免过长、过于复杂。直奔主题，CRF 最大的特点是它使用了特征函数。可以把特征函数想象成对输入 x 提取多个特征，每个特征函数提取一个特征。 \[ \sum_i^T\sum_k^M\lambda_kf_k(x,y_{i-1},y_i,i) \] 序列中共有 T 个时间步（NER 句中有 T 个字），用 i ...

论文阅读_语音合成综述

Created2022-01-15|2_Note0_Technic2_算法1_音频

基本信息题目：Survey on Neural Speech Syntheis 论文地址：https://arxiv.org/abs/2106.15561 上传时间：2021 年 1 月全文翻译：论文学习：A Survey on Neural Speech Synthesis 阅读体会比较全面介绍用深度学习实现语音合成的综述性论文。论文整体 63 页，其中正文 37 页，参考 TTS 相关论文 400 多篇。本文并不打算对论文逐句翻译，只列出重点，作为个人阅读笔记，同时加入笔者的一些注释。摘要近年来基于神经网络的深度学习算法大大提升了语音合成的质量，这篇文章集学术研究和工业应用于一体，是一篇综述性的文档，它包含语音合成的几个重要组成部分：文本分析、声学模型和声码器；涉及热门主题，比如：快速 TTS，使用更少资源训练等等；还总结了 TTS 相关资料（工具和数据），最后讨论了 TTS 未来的发展方向。 1. 介绍 TTS 主要指的是把文本转换成语音输出，它是一个由来已久的课题，涉及：语言学、声学、数据信号处理、机器学习等领域。这几年深度学习使 TTS 效果有了显著提升，这篇论文是 ...

MYSQL_数据库大太的解决方案

Created2022-01-09|2_Note0_Technic3_编程数据库

MYSQL 数据库大太的解决方案 #数据存储/MYSQL 面对问题插入查询慢、且需要时效性比较强的情况原因 MYSQL 容量上千万条以上就会很慢。解决方法分区对应用透明，相对操作比较简单。对主键有要求：所有主键里必须包含分区主键，如果又想用 id 查，又想用年份查就比较难。查询会受一些影响：批量查时快不了多少，插入可以提速。分库比如不同年份可以放在不同主机上，以加快速度。分表一般都使用分表策略。需要看按什么分，比如按用户 id 分，或者按年份分表。按时间分：热表（当前一年数据）、冷表（往年数据），最后一个年份的冷表可能看需要看是否保存最新数据；需要确定冷热表是否重叠，如果重叠。如按年份分表，注意按业务时间而不是编辑时间（这个时间可能变化）迁移场景需要定义迁移规则：比如每个月迁一次（新表、本年表、前一年表），对时间字段建索引历史数据迁移：如果表巨大，则不使用查询，从第一条开始向其它表里分流；选改表，再改其上应用。新表间迁移：假设每月迁一次，每月把这个月数据从热表里迁出来（同样是分流）；也可以双写，即每次写入冷表和热表，定期删热表最后的数据。补采数据 ...

论文阅读_语义嵌入

Created2022-01-08|2_Note0_Technic2_算法6_自然语言Embedding

论文题目：Making Sense of Word Embeddings 相关源码：https://github.com/uhh-lt/sensegram 论文地址：https://arxiv.org/abs/1708.03390 读后感语义嵌入：从语料库和字典学习，或从已有词向量数据归纳学习简介论文是 2016 年发表于 ACL(Association for Computational Linguistics，自然语言处理顶会，一年召开一次，CCF 等级/JCR 分区：A 类) 的会议论文。背景知识论文介绍了一种简单有效的方法用于学习语义嵌入。文中方法既可以直接从语料库和字典学习，也可以根据已有的词向量数据通过自我网络聚类的方法归纳学习。它提升了下游应用的效果，与当时最好的模型效果类似。词向量预处理时将词映射成稠密向量代入模型，降低稀疏性对比不同词的语义相似度，实现近义词的迁移表征不同语义单位：词向量 ->词组向量 ->短语向量通过词嵌入实现运算，比如：男 - 女=国王 - 王后，国王 - 男 + 女 ->王后，实现类比相关的逻辑推理功能，以 ...

论文阅读_中文命名实体识别 Lattice LSTM

Created2022-01-08|2_Note0_Technic2_算法6_自然语言特定功能模型

论文题目：Chinese NER Using Lattice LSTM 论文地址：https://arxiv.org/pdf/1805.02023.pdf 相关源码：https://github.com/jiesutd/LatticeLSTM 约 1.5K Star 中文翻译：中文实体抽取（NER）论文笔记中文翻译 2：ChineseNER Using LatticeLSTM笔记读后感优化中文的命名实体识别，加入了对中文词的支持介绍这是一篇 2018 年发表于 ACL（自然语言处理顶会）的论文，文中提出了一种基于格子（Lattice）结构的 LSTM 模型，用于优化中文的命名实体识别。具体方法结合了字序列和词序列两种方式（考虑可能出现的各种分词情况）。相对于基于 " 字序列”的方法，模型能兼顾词间关系；相对于”词序列“的方法，模型不受分词错误的影响。门控单元让模型选择最为相关的字和词以实现实体识别。近年来英文命名实体识别（NER）常用 LSTM-CRF 方法实现。中文的 NER 直觉上似乎应该是先做分词，再进行实体识别。然而由于跨界领域的分词问题难以解决，所以中文以字符为单 ...

6_Obsidian_日程管理工具

Created2022-01-06|2_Note0_Technic0_工具笔记工具Obsidian插件

#笔记/obsidian 简介原来一直觉得对每个小时日程做记录实在太卷了，但是近来常常遇到的问题是：计划都没完成，时间就没了，所以决定记录一下看看每天都做了什么。 Obsidian 的 Day Planner 插件就实现了这一功能，且可以以图的形式显示当天日程。优点很直观的看到当前处于什么位置明显看到时间流浙哪项工作 delay 哪些工作安排冲突尽管没完成计划，但也并没闲着进一步优化时间表，更有掌控感使用方法安装三方插件 Day Planner Setting->Community plugins->Day Planner 这也是一款下载量非常大的插件设置插件 Setting->Day Planner 建议在 Day Planner mode 中选 Command mode，如果使用 File mode 会建立一个文件夹专门存放 Day Planner 文件，如果使用 Command mode 则可通过命令面板在任意文件中插入 Day Planner 块建议选中 Mermaid Gantt，可以在笔记中自动建立横版的进度图，形如： ...

用ssh方式连接mysql数据库

Created2022-01-05|2_Note0_Technic3_编程数据库

用 ssh 方式连接 mysql 数据库原理 SSH 连接数据库的原理是先用 ssh 连接数据库所在服务器，然后作为该服务器上的应用程序访问本地数据库。 Navicat Python 安装工具 1$ pip install sshtunnel 建立连接 12345678import sshtunnelwith sshtunnel.SSHTunnelForwarder( ('192.168.1.216', 22), # ssh端口22 ssh_password='实际密码', ssh_username='实际用户名', remote_bind_address=('127.0.0.1', 3306)) as server: # mysql端口3306 ...... 此时数据库服务地址被映射到本地端口：127.0.0.1:serve.local_port，数据库连接方法和之前一样，不同的是将 ip 设置成本机 ip：127.0.0.1，端 ...

论文阅读_时序模型TDTS

Created2021-12-11|2_Note0_Technic2_算法9_时序

基本信息论文题目：基于趋势特征表示的 shapelet 分类方法（Shapelet classification method based on trend feature representation）论文地址：http://www.joca.cn/EN/Y2017/V37/I8/2343 原理在 Shaplet 被提出后的几年里，出现了很多算法来提高 Shapelet 效率和扩展其应用范围，《Shapelet classification method based on trend feature representation》简称 TDTS 提出了一种基于趋势的 top-K shapelet。其核心方法有三个：对分段后的子序列进行基于趋势的符号化处理符号化的原理请见 SAX 论文，简单地说，它实现了连续到离散的转化，用简单的值表征一个序列，包含趋势的符号化方法用二元组<K,u>表示序列，其中 K 是斜率，u 是该序列的终点值。它使用滑动窗口计算窗口内的斜率，当斜率变化大于某一阀值时（趋势改变时），则产生一个分段点 u 并继续滑动．所有分段完成 ...

论文阅读_时序模型Shapelet

Created2021-12-10|2_Note0_Technic2_算法9_时序

基本信息论文题目：《Time Series Shapelets: A New Primitive for Data Mining》论文地址：https://readpaper.com/paper/2029438113 相关源码：https://github.com/johannfaouzi/pyts 原理 2009 年，Ye 和 Keogh 在 KDD 上发表论文，首次提出了时序数据中的 Shapelet 的概念。Shapelet 是最近邻算法的扩展，它提取最典型的特征子集作为判断依据。例如：马鞭草和荨麻的叶片很相似，如果将它们的叶片边缘形状整体作为序列建模，则难以区分。 [[Pasted image 20211211160835.png]] 它们的重要差别是叶柄与叶片之间的角度，一个是直角，一个是钝角。因此，如果使用序列中的小片断（子序列）作为序列的表征，就很容易将二者区分开来。 [[Pasted image 20211211160313.png]] 优缺点优点具有可解释性鲁棒性强相对于最近邻算法速度快缺点算法相对简单，花费时间较长一般用于二分类和聚类， ...