avatar
Articles
829
Tags
252
Categories
168

Yan 的杂物志_个人主页分享
Search
MYSQL_数据库大太的解决方案
Created2022-01-09|2_Note0_Technic3_编程数据库
MYSQL 数据库大太的解决方案 #数据存储/MYSQL 面对问题 插入查询慢、且需要时效性比较强的情况 原因 MYSQL 容量上千万条以上就会很慢。 解决方法 分区 对应用透明,相对操作比较简单。 对主键有要求:所有主键里必须包含分区主键,如果又想用 id 查,又想用年份查就比较难。 查询会受一些影响:批量查时快不了多少,插入可以提速。 分库 比如不同年份可以放在不同主机上,以加快速度。 分表 一般都使用分表策略。 需要看按什么分,比如按用户 id 分,或者按年份分表。 按时间分:热表(当前一年数据)、冷表(往年数据),最后一个年份的冷表可能看需要看是否保存最新数据;需要确定冷热表是否重叠,如果重叠。 如按年份分表,注意按业务时间而不是编辑时间(这个时间可能变化) 迁移场景 需要定义迁移规则:比如每个月迁一次(新表、本年表、前一年表),对时间字段建索引 历史数据迁移:如果表巨大,则不使用查询,从第一条开始向其它表里分流;选改表,再改其上应用。 新表间迁移:假设每月迁一次,每月把这个月数据从热表里迁出来(同样是分流);也可以双写,即每次写入冷表和热表,定期删热表最后的数据。 补采数据 ...
论文阅读_语义嵌入
Created2022-01-08|2_Note0_Technic2_算法6_自然语言Embedding
论文题目:Making Sense of Word Embeddings 相关源码:https://github.com/uhh-lt/sensegram 论文地址:https://arxiv.org/abs/1708.03390 读后感 语义嵌入:从语料库和字典学习,或从已有词向量数据归纳学习 简介 论文是 2016 年发表于 ACL(Association for Computational Linguistics,自然语言处理顶会,一年召开一次,CCF 等级/JCR 分区:A 类) 的会议论文。 背景知识 论文介绍了一种简单有效的方法用于学习语义嵌入。文中方法既可以直接从语料库和字典学习,也可以根据已有的词向量数据通过自我网络聚类的方法归纳学习。它提升了下游应用的效果,与当时最好的模型效果类似。 词向量 预处理时将词映射成稠密向量代入模型,降低稀疏性 对比不同词的语义相似度,实现近义词的迁移 表征不同语义单位:词向量 ->词组向量 ->短语向量 通过词嵌入实现运算,比如:男 - 女=国王 - 王后,国王 - 男 + 女 ->王后,实现类比相关的逻辑推理功能,以 ...
论文阅读_中文命名实体识别 Lattice LSTM
Created2022-01-08|2_Note0_Technic2_算法6_自然语言特定功能模型
论文题目:Chinese NER Using Lattice LSTM 论文地址:https://arxiv.org/pdf/1805.02023.pdf 相关源码:https://github.com/jiesutd/LatticeLSTM 约 1.5K Star 中文翻译:中文实体抽取(NER)论文笔记 中文翻译 2:ChineseNER Using LatticeLSTM笔记 读后感 优化中文的命名实体识别,加入了对中文词的支持 介绍 这是一篇 2018 年发表于 ACL(自然语言处理顶会)的论文,文中提出了一种基于格子(Lattice)结构的 LSTM 模型,用于优化中文的命名实体识别。具体方法结合了字序列和词序列两种方式(考虑可能出现的各种分词情况)。相对于基于 " 字序列”的方法,模型能兼顾词间关系;相对于”词序列“的方法,模型不受分词错误的影响。门控单元让模型选择最为相关的字和词以实现实体识别。 近年来英文命名实体识别(NER)常用 LSTM-CRF 方法实现。中文的 NER 直觉上似乎应该是先做分词,再进行实体识别。然而由于跨界领域的分词问题难以解决,所以中文以字符为单 ...
6_Obsidian_日程管理工具
Created2022-01-06|2_Note0_Technic0_工具笔记工具Obsidian插件
#笔记/obsidian 简介 原来一直觉得对每个小时日程做记录实在太卷了,但是近来常常遇到的问题是:计划都没完成,时间就没了,所以决定记录一下看看每天都做了什么。 Obsidian 的 Day Planner 插件就实现了这一功能,且可以以图的形式显示当天日程。 优点 很直观的看到当前处于什么位置 明显看到时间流浙 哪项工作 delay 哪些工作安排冲突 尽管没完成计划,但也并没闲着 进一步优化时间表,更有掌控感 使用方法 安装三方插件 Day Planner Setting->Community plugins->Day Planner 这也是一款下载量非常大的插件 设置插件 Setting->Day Planner 建议在 Day Planner mode 中选 Command mode,如果使用 File mode 会建立一个文件夹专门存放 Day Planner 文件,如果使用 Command mode 则可通过命令面板在任意文件中插入 Day Planner 块 建议选中 Mermaid Gantt,可以在笔记中自动建立横版的进度图,形如: ...
用ssh方式连接mysql数据库
Created2022-01-05|2_Note0_Technic3_编程数据库
用 ssh 方式连接 mysql 数据库 原理 SSH 连接数据库的原理是先用 ssh 连接数据库所在服务器,然后作为该服务器上的应用程序访问本地数据库。 Navicat Python 安装工具 1$ pip install sshtunnel 建立连接 12345678import sshtunnelwith sshtunnel.SSHTunnelForwarder( ('192.168.1.216', 22), # ssh端口22 ssh_password='实际密码', ssh_username='实际用户名', remote_bind_address=('127.0.0.1', 3306)) as server: # mysql端口3306 ...... 此时数据库服务地址被映射到本地端口:127.0.0.1:serve.local_port,数据库连接方法和之前一样,不同的是将 ip 设置成本机 ip:127.0.0.1,端 ...
论文阅读_时序模型TDTS
Created2021-12-11|2_Note0_Technic2_算法9_时序
基本信息 论文题目:基于趋势特征表示的 shapelet 分类方法 (Shapelet classification method based on trend feature representation) 论文地址:http://www.joca.cn/EN/Y2017/V37/I8/2343 原理 在 Shaplet 被提出后的几年里,出现了很多算法来提高 Shapelet 效率和扩展其应用范围,《Shapelet classification method based on trend feature representation》简称 TDTS 提出了一种基于趋势的 top-K shapelet。 其核心方法有三个: 对分段后的子序列进行基于趋势的符号化处理 符号化的原理请见 SAX 论文,简单地说,它实现了连续到离散的转化,用简单的值表征一个序列,包含趋势的符号化方法用二元组<K,u>表示序列,其中 K 是斜率,u 是该序列的终点值。 它使用滑动窗口计算窗口内的斜率,当斜率变化大于某一阀值时(趋势改变时),则产生一个分段点 u 并继续滑动.所有分段完成 ...
论文阅读_时序模型Shapelet
Created2021-12-10|2_Note0_Technic2_算法9_时序
基本信息 论文题目:《Time Series Shapelets: A New Primitive for Data Mining》 论文地址:https://readpaper.com/paper/2029438113 相关源码:https://github.com/johannfaouzi/pyts 原理 2009 年,Ye 和 Keogh 在 KDD 上发表论文,首次提出了时序数据中的 Shapelet 的概念。Shapelet 是最近邻算法的扩展,它提取最典型的特征子集作为判断依据。 例如:马鞭草和荨麻的叶片很相似,如果将它们的叶片边缘形状整体作为序列建模,则难以区分。 [[Pasted image 20211211160835.png]] 它们的重要差别是叶柄与叶片之间的角度,一个是直角,一个是钝角。因此,如果使用序列中的小片断(子序列)作为序列的表征,就很容易将二者区分开来。 [[Pasted image 20211211160313.png]] 优缺点 优点 具有可解释性 鲁棒性强 相对于最近邻算法速度快 缺点 算法相对简单,花费时间较长 一般用于二分类和聚类, ...
0_Obsidian_简介
Created2021-12-04|2_Note0_Technic0_工具笔记工具Obsidian
Obsidian 简介 #笔记/obsidian 我的困惑 这几年写了不少笔记文章,分布在微博、CSDN、知乎、公众号、有道云笔记、飞书…… 随着平台的更替改版,越发改不动了,具体的问题罗列如下: 不同平台文章格式不同 切换平台过程中文章和图片丢失 忘了写在哪里找不到了 重要的文章发多个平台,虽然格式可以复制粘贴,但也很耽误时间 有些笔记发现问题想更新,但因为发布过程太麻烦而搁浅 有些笔记太过琐碎,不适合对外发布 有些笔记有些不想公开 有些笔记在不断改进中 有些笔记无法归入树状图中的某一类,或可归入多类 很多平台不支持仅对自己笔记检索 如果只写给自己看也没什么动力 更深层次的问题是:笔记是给别人看的,还是自己看的?目标不一样,写法也不一样。一个比较新的概念是:" 打造自己 Second Brain & Digital Garden",然后朋友介绍了 Obsidian。 用了 Obsidian 之后,我觉得最舒服的地方是:不用再强迫自己非得记住什么了,只要能快速找到就可以了,也算是一种妥协吧。 作为记忆的扩展,它有以下优点: 随手记下想法、摘录 工作计划和记录 常用工具随手 ...
5_Obsidian_DataView
Created2021-12-04|2_Note0_Technic0_工具笔记工具Obsidian插件
Obsidian DataView 插件的简单用法 #笔记/obsidian 使用 DrawView 三方插件可生成动态索引 列出当前笔记中的所有标签 1`= this.file.tags` 根据文件生成索引列表 将”目录名“文件夹(含子文件夹)下所有名字包含‘2021’的文件生成索引列表,并按时间排序。 12345\```dataviewlist from "目录名"where contains(file.name,"2021")sort file.ctime\``` 根据标签生成索引列表 12list from #标签名 YML 格式 如需使用 dataview 进一步管理和显示笔记相关属性,需要在笔记开头用 YML 格式描述笔记相关属性作为元数据(Metadata),可将 YML 看作是简单的配置文件,笔记文件将开头位置六个横杠之间的内容识别为 YML,形如: 12345---题目: xxx作者: yyytags: \[]--- 注意冒号后面的空格 按属性生成索引表 12345\```dataviewlist from "&quo ...
Python正则表达式
Created2021-11-27|2_Note0_Technic3_编程Python工具
Python 的正则表达式 1 基本用法 1.1.1 匹配字符串的开头 1^很 1.1.2 匹配字符串的末尾 1蓝$ 1.1.3 匹配除了换行符外的任意字符 指定 re.S(re.DOTALL) 时,可包括换行符 1. 1.1.4 匹配方括号中任意一个字符 1\[Pp\]`,`\[0-9\] 1.1.5: 匹配不在中括号中的字符 1234\[^...]可匹配除了a,b,c之外的字符[^abc] 1.1.6 : 匹配其前面的字符出现 0 次或多次, 12可匹配 helll,hehel* 1.1.7 匹配其前面的字符出现 1 次或多次,如 1234+可匹配 helll,hel,但无法匹配hehel+ 1.1.8 匹配其前面的字符出现 0 次或 1 次, 1234?可匹配hel,he,但无法匹配hellhel? 1.1.9 匹配其前面的表达式出现 n 次, 1234{n}可匹配food,但无法匹配powo{2} 1.1.10 匹配其前面的表达式出现 n 次以上, 1234{n,}可匹配food,fooooood,无法匹配pow,`o ...
1…454647…83
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
829
Tags
252
Categories
168
Follow Me
Announcement
This is my Blog
Recent Post
对谈_250610_抑郁2_少年的困境2025-07-07
对谈_250610_抑郁3_边缘叛逃者2025-07-07
对谈_250616_抑郁4_不合适的目标2025-07-07
对谈_250618_抑郁5_反刍2025-07-07
对谈_250530_钻空子2025-07-07
Categories
  • 0_IMO76
    • 工作1
    • 说给一个人听75
      • 01_自我建构29
        • 实修3
        • 思考与觉悟14
        • 行动与进化12
      • 02_情绪心理16
Tags
自动化 知识图/知识图谱 心理建设 自我剖析 代码生成 Python/数据 量化回测 远视镜 关系维护 翻译 远程桌面 无代码开发 自然语言处理/BERT 生活技巧 世界观 推荐系统 开源项目 特征工程 操作系统/Linux 笔记工具 CentOS 模型转换 情绪表达 社会 决策哲学 阅读/社会学 Python/少儿编程 AI功能 自然语言处理/工具 Android/theme 数据安全 编程语言/JNI 笔记 美食 医学 Python/图形图像 情绪管理 插件推荐 舞台感 概率
Archives
  • July 202520
  • June 202539
  • May 202530
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
Info
Article :
829
Total Count :
1147.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database