Yan 的杂物志_个人主页分享

Created2022-05-15|2_Note0_Technic2_算法6_自然语言机器学习

实战 _ 用 TF/IDF 算法对比相似度原理 TF/IDF 方法于 1983 年题出，它先计算每个单词出现的频率，然后适当归一化。利用 TF-IDF 方法将任意长度的文档缩减为固定长度的数字列表，然后对比文本相似度，gensim 工具包提供该方法。简单复习一下具体算法：词频 TF \[ tf_{i,j}=\frac{n_{i,j}}{\sum_kn_{k,j}} \] 其中 n 是句中词，i 是词的索引号，j 是文章索引号，k 是文章中所有词，上式计算的是词 i 在本篇出现的比率。请注意：在短文本的情况下，绝大多数词只出现一次，tf 就只和文章长短有关了。逆向文档频率 IDF \[ idf_{i}=log \frac{|D|}{|j:t_i\in d_j|} \] 其中分母是文章总数，分子是包含词 i 的文章数。 TF/IDF \[ tfidf_{i,j}=tf_{i,j} \times idf_{i} \] tfidf 值反映的是每个词在文档中的重要程度。请注意：这是一种基于计数的方法，不直接使用词义。该算法的优点在于算法简单，计算量小；而缺点在于无法处理对同一概念的不同 ...

论文阅读_中文医学预测训练模型_MC-BERT

Created2022-05-07|2_Note0_Technic1_医学医学_技术论文

论文阅读 _ 中文医学预训练模型 _MC-BERT 介绍英文题目：Conceptualized Representation Learning for Chinese Biomedical Text Mining 中文题目：中文生物医学文本挖掘中的概念化表征学习论文地址：https://arxiv.org/pdf/2008.10813.pdf 领域：自然语言处理，知识抽取发表时间：2020 作者：Ningyu Zhang，阿里巴巴被引量：14 代码和数据：https://github.com/alibaba-research/ChineseBLUE 模型下载：https://drive.google.com/open?id=1ccXRvaeox5XCNP_aSk_ttLBY695Erlok 阅读时间：2022.05.07 我的收获获得了现成可用的医学 BERT 模型，以及大量带标注的数据集。针对问题医疗数据集与普通数据集分布不同，医疗词汇的长尾分布也很难从普通语料中学习，中文的词和短语更复杂一些。需要训练一个类似 BERT 的针对医疗的中文预训练模型。本文贡献提出了 ...

论文阅读_大图的节点表征GraphSAGE

Created2022-05-03|2_Note0_Technic2_算法12_图神经网络

介绍英文题目：Inductive Representation Learning on Large Graphs 中文题目：基于大图的归纳表示学习论文地址：https://arxiv.org/abs/1706.02216 领域：知识图谱，知识表征发表时间：2017 作者：William L. Hamilton，斯坦福大学出处：NIPS 被引量：2398 代码和数据：https://github.com/williamleif/GraphSAGE，pyg 和 dgl 均有对该方法的支持阅读时间：2022.05.03 读后感学习大图、不断扩展的图，未见过节点的表征，是一个很常见的应用场景。GraphSAGE 通过训练聚合函数，实现优化未知节点的表示方法。之后提出的 GAN（图注意力网络）也针对此问题优化。文中提出了：传导性问题和归纳性问题，传导性问题是已知全图情况，计算节点表征向量；归纳性问题是在不完全了解全图的情况下，训练节点的表征函数（不是直接计算向量表示）。图工具的处理过程每轮迭代（一次 propagation）一般都包含：收集信息、聚合、更新，从本文也可以更好地理解 ...

论文阅读_图注意力网络GAN

Created2022-05-02|2_Note0_Technic2_算法12_图神经网络

介绍 12345678910英文题目：GRAPH ATTENTION NETWORKS中文题目：图注意力网络论文地址：https://export.arxiv.org/pdf/1710.10903.pdf领域：知识图谱，知识表示发表时间：2018 年作者：Petar Veliˇckovi ́c，剑桥大学出处：深度学习顶会 ICLR被引量：1000代码和数据：https://github.com/PetarV-/GAT阅读时间：2022.04.25 读后感简介部分复习了当时主流做法的演进过程，是很好的导读，其中 GNN（基于 RNN），GCN（基于 CNN），GAN（基于 Attention）都比较重要，MoNet 和 GraphSAGE 也可以读一下（GraphSAGE 用于大规模数据）。泛读针对问题：基于图结构的节点分类结果：在小数据集传导测试中 GAN 与 GCN 效果不相上下，略好一点；在大数据集归纳测试中，无法使用 GCN 等方法，GAN 更有优势。核心方法：把注意力机制引入图神经网络。难点：如果之前了解 Attention 和图的基本表示方法，本篇原理和代码都不 ...

论文阅读_GCN知识图对齐

Created2022-04-23|2_Note0_Technic2_算法12_图神经网络

介绍英文题目：Cross-lingual Knowledge Graph Alignment viaGraph Convolutional Networks 中文题目：基于 GCN 的跨语言知识图对齐论文地址：https://aclanthology.org/D18-1032.pdf 领域：知识图谱，知识对齐发表时间：2018 作者：Zhichun Wang 北京师范大学出处：EMNLP 被引量：198 代码和数据：https://github.com/1049451037/GCN-Align 阅读时间：2022.04.15 其它介绍文章亮点：复习了之前的对齐方法提出了邻接矩阵的计算以及属性的代入方法技巧 GCNAlign 和同类文件相比，引用量大，速度快，效果好，常作为默认工具文章偏重真实场景中，多种关系，属性类别，属性值的应用。泛读针对问题：不同语言知识图中的实体对齐结果：使用比较简单的方法，超过或得到与之前的方法近似的效果核心方法：调整 GCN 层计算方法，可同时对结构和属性编码难点：无泛读后理解程度：直接精读（看完题目、摘要、结论、图表及小 ...

论文阅读_KnowPrompt知识抽取

Created2022-04-17|2_Note0_Technic2_算法6_自然语言特定功能模型

读后感针对问题：few-shot 场景下从文本中抽取关系（知识检索、对话、问答）。结果：在 5 个数据集，及少量标注情况下，测试效果优于之前模型核心方法：希望在 pretrain 后不再 fine-tuning，于是引入了提示 prompt，通过构建提问（提问方法/答案范围）来实现类似 tuning 的效果。难点：之前对知识抽取和提示学习都不太了解；后来读了代码才了解，文中指的知识不是来自外界引入，而是将词嵌入作为知识。泛读后理解程度：60% （看完题目、摘要、结论、图表及小标题）围绕句子的逻辑，利用之前定义好的模板提问，回答基于知识的提示学习 KnowPrompt 12345678910英文题目：KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimizationfor Relation Extraction中文题目：KnowPrompt: 基于协同优化的知识感知快速调优**关系提取**论文地址：https://arxiv.org/pdf/2104.07650.pdf领域：自然语言处理，关系提 ...

论文阅读_知识图对齐PRASE

Created2022-04-09|2_Note0_Technic2_算法12_图神经网络

介绍英文题目：Unsupervised Knowledge Graph Alignment by Probabilistic Reasoning and Semantic Embedding 中文题目：基于概率推理和语义嵌入的无监督知识图对齐论文地址：https://arxiv.org/abs/2105.05596v1 领域：自然语言处理，知识图谱发表时间：2021 作者：腾讯天衍实验室出处：IJCAI（国际人工智能联合会议）被引量：1 代码和数据： https://github.com/qizhyuan/PRASE-Python https://github.com/dig-team/PARIS 阅读时间：22.04.08 泛读针对问题：实体对齐（不是本体对齐）结果：效果优于之前模型核心方法：提出 PRASE，基于概率推理和语义嵌入，使用不断更新种子的方法迭代训练上述两个子模型。难点：先需要了解一下 PARIS 模型泛读后理解程度：70% （看完题目、摘要、结论、图表及小标题）精读摘要目前常用的实体对齐方法包括：基于词嵌入的对齐、常识推理和字典匹配。前者 ...

markdown_LaTeX

Created2022-04-05|2_Note0_Technic0_工具笔记工具markdown

#笔记/markdown 1 希腊字母字母 LaTex 字母 LaTex \(\alpha\) \(\xi\) \(\beta\) \(\pi\) \(\gamma\) \(\rho\) \(\delta\) \(\sigma\) \(\epsilon\) \(\tau\) \(\zeta\) \(\upsilon\) \(\eta\) \(\phi\) \(\theta\) \(\chi\) \(\iota\) \(\psi\) \(\kappa\) \(\omega\) \(\lambda\) \(\nu\) \(\mu\) \(\Gamma\) \(\Sigma\) \(\Delta\) \(\Upsilon\) \(\Theta\) \(\Phi\) \(\Lambda\) \(\Psi\) \(\Xi\) \(\Omega\) \(\Pi\) 2 常用符号 2.1 关系表达式符号 LaTex ...

markdown_页面中跳转

Created2022-04-05|2_Note0_Technic0_工具笔记工具markdown

#笔记/markdown 1 标题跳转 1.1 页内跳转 1[[#本页标题名]] 1.2 页间跳转 1[[文档名#标题名]] 1.3 跳转时显示特定文本 1[显示的内容](#标题标号-标题文本) 1.4 注意 () 小括号内部声明跳转目标标题，以 # 开头 (无论几级标题，都只要一个井号)，标题题号如果包含 .、下划线直接忽略掉，标题文本中如果有空格，使用 - 横杠符号替代，标题文本中的大写字母转换成小写。 2 块跳转 Obsidian 支持块跳转功能，Help 中有详细说明，简要概括如下：使用^号定义块 1正文 ^dcf64c 跳转 1[[#^dcf64c]] 在文档中嵌入块内容 1![[#^dcf64c]] 形如: Pasted image 20220102231907.png 3 脚注调用脚注写法： 1点击跳到脚注 [^aa] 脚注本身写法： 1[^aa]:我是脚注本身（点击右测可返回调用处） 4 参考 # Markdown实用语法之实现页面内跳转

论文阅读_关系表征的在线学习DeepWalk

Created2022-04-04|2_Note0_Technic2_算法12_图神经网络

读后感针对问题：学习图中节点的表征，解决多分类、异常检测等问题。通过优化算法，可应用于大规模数据。结果：当标签数据稀疏时，F1 分数比之前方法提升 10%；在一些实验中，使用 60% 训练数据，结果即可优于其它方法。核心方法：借鉴自然语言处理方法，利用统计原理，使用无监督数据学习。难点：优化部分较难理解。泛读后理解程度：直接精读。（看完题目、摘要、结论、图表及小标题）介绍英文题目：DeepWalk: Online Learning of Social Representations 中文题目：DeepWalk：关系表征的在线学习论文地址：http://perozzi.net/publications/14_kdd_deepwalk.pdf 领域：知识图谱发表时间：2014 出处：KDD 被引量：5094 代码和数据：https://github.com/phanein/deepwalk/ 阅读时间：2022.3.28 精读 1. 介绍 Pasted image 20220328211733.png 编码的目标是使用相对较低的维度表征数据，如图以 2 维为例 ...