个人简介

Echo Blog


江湖无名 安心练剑
  • NLP ATC (automation text classification) 文本分类
    文本分类概述 文本分类问题: 给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个 文本分类应用: 常见的有垃圾邮件识别,情感分析 文本分类方向: 主要有二分类,多分类,多标签分类 文本分类方法: 传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,TextCNN等) 本文的思路: 本文主要介绍文本分类的处理过程,主要哪些方法。致力让读者明白在处理文本...
    2020-01-20 02:09:32 | NLP
  • NLP ATC (automation text classification) 文本分类实战之 java 实现
    文本分类: 1. 啥是文本分类(Text Classification): 将一篇文档分到其中一个或者多个类的过程,例 :判断分类出垃圾邮件 类型:包括类别数目(Binary、multi-class)、每篇文章赋予的标签数目(Single label、Multi label) 基础知识 一. 概率论基础 条件概率公式: 全概率公式: 由条件概率公...
    2020-01-20 02:09:32 | NLP
  • NLP ATC (automation text classification) 文本分类实战
    简介 这这一篇博客中,将系统介绍中文文本分类的流程和相关算法。 先从文本挖掘的大背景开始,以文本分类算法为中心,介绍中文文本分类项目的流程以及相关知识,知识点涉及中文分词,向量空间模型,TF-IDF方法,几个典型的文本分类算法和评价指标等。 本篇主要有: 朴素的贝叶斯算法 KNN最近邻算法。 文本挖掘与文本分类的概念 简单来说,文本挖掘就是从已知的大量文本数据中提取一些未知的最...
    2020-01-20 02:09:32 | NLP
  • NLP ASR 语音转文本-04-basic 基本原理
    MFCC提取过程 声音是模拟信号,声音的时域波形只代表声压随时间变化的关系,不能很好的代表声音的特征,因此,必须将声音波形转换为声学特征向量。 目前有许多声音特征提取方法,如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7等,其中MFCC是基于倒谱的,更符合人的听觉原理,因而是最普遍、最有效的声音特征提取算法。 在提取MFCC前,需要对声音做前期处理,包...
    2020-01-20 02:09:32 | NLP
  • NLP ASR 语音转文本-03-AI 深度学习
    机器学习并不总是一个黑盒 如果你知道神经机器翻译是如何工作的,那么你可能会猜到,我们可以简单地将声音送入神经网络中,并训练使之生成文本: 一个大问题是语速不同。 一个人可能很快地说出「hello!」而另一个人可能会非常缓慢地说「heeeelllllllllllllooooo!」。 这产生了一个更长的声音文件,也产生了更多的数据。 这两个声音文件都应该被识别为完全相同的文本「hell...
    2020-01-20 02:09:32 | NLP
  • NLP ASR 语音转文本-02-发展历史
    浅析语音识别技术的工作原理及发展 语音是人类最自然的交互方式。 计算机发明之后,让机器能够“听懂”人类的语言,理解语言中的内在含义,并能做出正确的回答就成为了人们追求的目标。 我们都希望像科幻电影中那些智能先进的机器人助手一样,在与人进行语音交流时,让它听明白你在说什么。 语音识别技术将人类这一曾经的梦想变成了现实。 语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把...
    2020-01-20 02:09:32 | NLP
  • NLP ASR 语音转文本-01-概览
    整体流程 我们知道声音实际上是一种波。 常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。 下图是一个波形的示例。 1. VAD-静音切除 在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。 这个静音切除的操作...
    2020-01-20 02:09:32 | NLP
  • NLP 中文整体规划设计应用
    前沿 NLP 可以做很多事情,可以非常的简单,但是效果却非常的好。 基本语料(chinese-basic) 字 词 成语 相关基础工具 拼音 繁简体 形近字 词语拓展 同义词、近义词、反义词、否定词、停顿词 敏感词 【汉字拆字】 【汉字词语缩写】 应用 拼写纠正:基于困惑集+编辑距离,结合中文的【形近字】【同音字】【谐音字】和【常见错别字词库】进行纠正。 基...
    2020-01-20 02:09:32 | NLP