Echo Blog

江湖无名安心练剑

NLP ATC （automation text classification）文本分类
文本分类概述文本分类问题：给定文档p（可能含有标题t），将文档分类为n个类别中的一个或多个文本分类应用：常见的有垃圾邮件识别，情感分析文本分类方向：主要有二分类，多分类，多标签分类文本分类方法：传统机器学习方法（贝叶斯，svm等），深度学习方法（fastText，TextCNN等）本文的思路：本文主要介绍文本分类的处理过程，主要哪些方法。致力让读者明白在处理文本...
2020-01-20 02:09:32 | NLP

NLP ATC （automation text classification）文本分类实战之 java 实现
文本分类： 1. 啥是文本分类（Text Classification）：将一篇文档分到其中一个或者多个类的过程，例：判断分类出垃圾邮件类型：包括类别数目（Binary、multi-class）、每篇文章赋予的标签数目（Single label、Multi label）基础知识一. 概率论基础条件概率公式：全概率公式：由条件概率公...
2020-01-20 02:09:32 | NLP

NLP ATC （automation text classification）文本分类实战
简介这这一篇博客中，将系统介绍中文文本分类的流程和相关算法。先从文本挖掘的大背景开始，以文本分类算法为中心，介绍中文文本分类项目的流程以及相关知识，知识点涉及中文分词，向量空间模型，TF-IDF方法，几个典型的文本分类算法和评价指标等。本篇主要有：朴素的贝叶斯算法 KNN最近邻算法。文本挖掘与文本分类的概念简单来说，文本挖掘就是从已知的大量文本数据中提取一些未知的最...
2020-01-20 02:09:32 | NLP

NLP ASR 语音转文本-04-basic 基本原理
MFCC提取过程声音是模拟信号，声音的时域波形只代表声压随时间变化的关系，不能很好的代表声音的特征，因此，必须将声音波形转换为声学特征向量。目前有许多声音特征提取方法，如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7等，其中MFCC是基于倒谱的，更符合人的听觉原理，因而是最普遍、最有效的声音特征提取算法。在提取MFCC前，需要对声音做前期处理，包...
2020-01-20 02:09:32 | NLP

NLP ASR 语音转文本-03-AI 深度学习
机器学习并不总是一个黑盒如果你知道神经机器翻译是如何工作的，那么你可能会猜到，我们可以简单地将声音送入神经网络中，并训练使之生成文本：一个大问题是语速不同。一个人可能很快地说出「hello！」而另一个人可能会非常缓慢地说「heeeelllllllllllllooooo！」。这产生了一个更长的声音文件，也产生了更多的数据。这两个声音文件都应该被识别为完全相同的文本「hell...
2020-01-20 02:09:32 | NLP

NLP ASR 语音转文本-02-发展历史
浅析语音识别技术的工作原理及发展语音是人类最自然的交互方式。计算机发明之后，让机器能够“听懂”人类的语言，理解语言中的内在含义，并能做出正确的回答就成为了人们追求的目标。我们都希望像科幻电影中那些智能先进的机器人助手一样，在与人进行语音交流时，让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”，该技术让机器通过识别和理解，把...
2020-01-20 02:09:32 | NLP

NLP ASR 语音转文本-01-概览
整体流程我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。下图是一个波形的示例。 1. VAD-静音切除在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作...
2020-01-20 02:09:32 | NLP

NLP 中文整体规划设计应用
前沿 NLP 可以做很多事情，可以非常的简单，但是效果却非常的好。基本语料（chinese-basic）字词成语相关基础工具拼音繁简体形近字词语拓展同义词、近义词、反义词、否定词、停顿词敏感词【汉字拆字】【汉字词语缩写】应用拼写纠正：基于困惑集+编辑距离，结合中文的【形近字】【同音字】【谐音字】和【常见错别字词库】进行纠正。基...
2020-01-20 02:09:32 | NLP

«
50
51
52
53
54
55
56
57
58
59
»