-
NLP 中文拼写检测纠正算法整理
中文拼写纠正
最基本的思想,将所有的常见错别字整理为字典。
但是这个字典的数量实际上非常有限,所以还是要借助算法。
本文简单地讲解如何使用n-gram模型结合汉字拼音来作中文错别字纠错,然后介绍最短编辑距离在中文搜索纠错方面的应用;
最后从依赖树入手讲解如何作文本长距离纠错(语法纠错),并从该方法中得到一种启示,利用依赖树的特点结合ESA算法来做同义词的查找。
n-gram模型
...
2020-01-20 02:09:32 |
Data-Struct
-
NLP 中文形近字相似度计算思路
汉字相似度的计算思路
汉字本身的结构非常的复杂,可以通过结构进行计算。
汉字的结构
相似度计算算法
实现方式
首先人工做基本的 level 相似度分组,然后在这个基础之上,进行全自动识别。
汉字的形式化描述
汉字部件
在国家颁发的 GB13000.1字符集汉字部首归部规范 , 列出了20902 个汉字的部件表 , 对这些汉字进行了逐个拆分 。
从 中选定了5...
2020-01-20 02:09:32 |
NLP
-
NLP 中文人名印章生成
基本功能要求
类型
阴刻
阳刻
字体
可以指定不同的字体
结果
自动生成一张图片,最后背景透明。
基本技术
图片的处理
当然实现比较繁琐,可以直接参考已有的实现。
字体,水印。
容易操作性
结合基本的 jar,生成一个简单易用的页面。
拓展阅读
图片处理工具-thumbnailator
参考文章
印章生成工具:使用Java Graphics2D生成各类圆形/...
2020-01-20 02:09:32 |
NLP
-
NLP 中文人名打分的实现思路
个人理解
一个好的名字,某种程度上要有历史文化气息。
好名字
五行圆满(类似于传统迷信的部分)
文化底蕴(诗词歌赋,历史渊源)
读音朗朗上口
这个可以 pinyin 去判断 ,但是什么名字才会比较好呢?平仄吗?
笔画
个人觉得笔画太多其实不是好事,小时候孩子不好写名字,别人也懒得写,记不住。挺尴尬。
比如司...
2020-01-20 02:09:32 |
NLP
-
名字,名称打分策略之三才五格
1.天格
1)单姓,姓氏笔划+1,如“丁”姓,天格数理为2+1=3.
2)复姓,姓氏笔划数相加,如“司马”姓,司5+马10=15.
天格是由姓氏决定的,姓氏又是祖先传下来的,其数理对人影响不大。
例子
如司马光,司马是复姓,天格是5+10=15;李刚,李是单姓,天格是7+1=8。天格乃祖先留下来的,其数理对人影响不大。
2.人格
人格为人的主运,是整个姓名的中心点,可以推断人一...
2020-01-20 02:09:32 |
NLP
-
NLP 中文人名生成器,性别识别实现思路
随机生成人名的原理
基本信息
所有的姓氏
男性名称
女性名称
单字
双字
诗词+各种古代文学+单字+词的解释。
随机
性 + 对应性别的候选词==》自动生成。
性别推测思路
数学
贝叶斯公式: P(Y|X) = P(X|Y) * P(Y) / P(X)
当X条件独立时, P(X|Y) = P(X1|Y) * P(X2|Y) * ...
应用到猜名字上
P(gen...
2020-01-20 02:09:32 |
NLP
-
NLP 中英文转换
英语基础语料
中文到英文的翻译有一些比较重要的作用:
作为基础的语料
作为后期翻译的字典
计算机相关命名等等。
词典获取思路
使用已有的字典
结合相关列表,进行扩充(爬虫)
Free English to Chinese Dictionary Database 算是比较全的一...
2020-01-20 02:09:32 |
NLP
-
NLP 中文对联实现思路
基础的词库
笠翁对韵 全部韵脚系列
整体思路
词库中优先使用
结合算法:无论这个算法是深度学习还是其他。
分词
词库中的长词要想被使用,首先就需要对【上联】进行中文分词,然后查询词典,获取对应映射关系。
词库不能太大
比如对联的训练集合有 70w 的对联,将这些数据都存储起来,显然不现实。
最核心的原理应该还是词向量+n-gram。
平仄
文字的平仄可以简单的按照拼音来...
2020-01-20 02:09:32 |
NLP