-
NLP TTS 文本转语音-Google 翻译实现例子
最简单的实现思路
基础预料
获取所有单个字的读音,常见的标点符号。
音频的压缩
针对中文,只需要获取每个读音的5个声调即可。
针对汉字,首先进行拼音转换(带声调),然后统一去重处理。
分词的处理
可以针对句子分词,然后获取对应的词语读音。
如果没有对应的词语读音,再去寻找对应的单个声字读音。
词语也可以使用拼音进行音频的压缩。
标点符号
标点符号...
2020-01-20 02:09:32 |
NLP
-
NLP 文本生成
序言
其实个人比较希望学会实现自动文本生成,目前的 level 还很低,所以这次做一个概览。
但是我不满足于只会使用,我希望可以懂得背后的数学原理,可以用任何一种语言去实现。
引入
AI写诗?? AI创作小说?? 近年来人们时常听到这类新闻,听上去很不可思议,那么今天我们来一探究竟,这种功能是如何通过深度学习来实现的。
通常文本生成的基本策略是借助语言模型,这是一种基于概率的模型,...
2020-01-20 02:09:32 |
NLP
-
NLP abbreviation 文本缩写
缩写
我们在中文中经常会有各种缩写。
我觉得本缩写词库可以有几层:
(1)基本词库。缩写词固定
根据 key 获取 value,或者反过来。
(2)英文词库
拓展词库,可以获取对应的英文缩写。
(3)训练
根据缩写词+原始词的词性等进行训练,初期可以采用简单的方式。
后期学习更好的算法,可以进行替换。
词库
中文系统词库
中文自定义词库
v0.0.1
基本的映射关...
2020-01-20 02:09:32 |
NLP
-
NLP 句法分析 syntactic parsing
场景
把一句话按照句法逻辑组织成一棵树,由人来做这件事是可行的,但是由机器来实现是不可思议的,然而算法世界就是这么神奇,把一个十分复杂的过程抽象成仅仅几步操作,甚至不足10行代码,就能让机器完成需要耗费人脑几十亿脑细胞的工作,本文我们来见识一下神奇的句法分析树生成算法
句法分析
先来解释一下句法分析。
句法分析分为句法结构分析和依存关系分析。
句法结构分析也就是短语结构分析,比如提...
2020-01-20 02:09:32 |
NLP
-
NLP 情感分析简介
情感分析名词概述
是什么
情感分析是文本分类的一个分支,是对带有情感色彩(褒义贬义/正向负向)的主观性文本进行分析,以确定该文本的观点、喜好、情感倾向。
例如说,文本”这是书读来爱不释手”归为正向,”这本书很难看”归为负向。
当然也有层次更多的分类。
为什么
被研究的主观性文本包括顾客对某个产品的评论,大众对某个新闻热点事件的观点等。
通过这些文本,商家可以为消费者提供决策参考...
2020-01-20 02:09:32 |
NLP
-
NLP Number 数字工具类
背景
当我们看到一串数字时:
123 456 7890
1989-10-01
12:35
121212.23
12'23''
同样的都是数字,可能读法是不同的。
转换为中文读音和英文读音也是不同的。
为了方便,此处优先转换为中文。
基础预料
0
1
2
3
4
5
6
7
8
9
按照单个中文去读,转换为对应的中文。
标点符号另算。
金额转换
12000
...
2020-01-20 02:09:32 |
NLP
-
NLP 中文拼写检测实现思路
目的
汉字不存在错字,但是存在别字。
查了一遍整个 github,只有一个比较靠谱的实现 correction,基于 C 语言实现。
相对成熟的产品 写作猫
核心思路
核心思路如下:
使用语言模型计算句子或序列的合理性
bigram, trigram, 4-gram 结合,并对每个字的分数求平均以平滑每个字的得分
根据Med...
2020-01-20 02:09:32 |
Data-Struct
-
NLP 中文拼写检测纠正 Paper
摘要
本文介绍了SIGHAN 2015 拼写中文拼写检查,包括任务描述,数据准备, 绩效指标和评估结果。
比赛揭示了当前处理中文拼写检查的最新NLP技术。
所有此次测试中使用的带有黄金标准和评估工具的数据集可公开获取,以备将来研究之用。
介绍
中文拼写检查器相对较难开发,部分原因是中文单词之间不存在单词定界符,并且中文单词只能包含单个字符或多个字符。
此外,还有超过13,000个...
2020-01-20 02:09:32 |
Data-Struct