-
TF-IDF 自动提取关键词
自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。
有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?
这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。
它简单到都不需要高...
2020-01-09 02:09:32 |
Search
-
TF-IDF 自动生成文章摘要
自动摘要
有时候,很简单的数学方法,就可以完成很复杂的任务。
这个系列的前两部分就是很好的例子。
仅仅依靠统计词频,就能找出关键词和相似文章。
虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。
今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。
如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大...
2020-01-09 02:09:32 |
Search
-
倒排索引原理与实现
关于倒排索引
场景是:给定几个关键词,找出包含关键词的文档
倒排索引: 不是由记录来确定属性值,而是由属性值来确定记录的位置
lucene 是基于倒排索引实现的。
倒排文件(inverted file):存储倒排索引的物理文件
倒排索引组成:单词词典和倒排文件。
倒排索引一般表示为一个关键词,然后是它的频度(出现的次数),位置(出现在哪一篇文章或网页中,及有关的日期,作者等信息)...
2020-01-09 02:09:32 |
Search
-
java 实现 OCR 图片文字识别
OCR图像识别技术的JAVA实现
最近有个需求需要用图像识别,学习记录一下。
目前网络上的开源的图像识别技术有很多,例如 OCRE(OCR Easy)、Clara OCR、OCRAD、TESSERACT-OCR 等。
今天本blog将记录下tesseract-ocr的JAVA实现,便于以后查阅使用。
开源 ocr 引擎
https://github.com/search?q=ocr...
2020-01-09 02:09:32 |
OCR
-
java 实现 OCR 图片文字识别中文
背景
我们上一节讲过了针对英文的 ocr 实现,现在我们来尝试一下中文识别。
我们准备一张简单的中文图片:
准备工作
下载中文训练集
下载地址 所有语言的训练集
此处直接下载 简体中文训练集,然后将其拷贝到我们的
tessdata 文件夹中:
C:\Program Files (x86)\Tesseract-OCR\tessdata
maven 引入
<dep...
2020-01-09 02:09:32 |
OCR
-
special chars 特殊符号汇总
特殊符号
特殊符号列表
≠≡⁄≤≥«#©¨!¯&®'$¬%£*+¢¡(≈)§./¦¥,»¸¾¿¼½;:°±¶?·>=´<@♠←↑→♣↓↔♥∩♦∫–—‚’ב^„”◊“†‡•∂€…∏™‰″′˜−∑‹∞÷~|›√‾¥`
QQ
︻︼︽︾〒↑↓☉⊙●〇◎¤★☆■▓「」『』◆◇▲△▼▽◣◥◢◣◤ ◥№↑↓→←↘↙Ψ※㊣∑⌒∩【】〖〗@ξζω□∮〓※》∏卐√ ╳々♀♂∞①ㄨ...
2020-01-08 02:09:32 |
Java
-
number 数字与中文
数字的写法转换
代码
private static final String NUM_ONE = "⓪0零º₀⓿○" +
"123456789" +
"一二三四五六七八九" +
"壹贰叁肆伍陆柒捌玖" +
"¹²³⁴⁵⁶⁷⁸⁹" +
"₁₂₃₄₅₆₇₈₉" +
...
2020-01-08 02:09:32 |
Java
-
结巴分词之词性标注实现思路 speechTagging
词性标注
词性标注的在分词之后进行标注,整体思路也不难:
(1)如果一个词只有一种词性,那么直接固定即可。
(2)如果一个词有多种词性,那么需要推断出最大概率的一种。
这个其实有些类似分词的时候做的事情,分词的过程中也是存在多种选择,然后选择概率最大的一种(当然那个是采用的动态规划)。
HMM 在分词的过程中主要针对的是未登录词。
动态规划用于计算最大概率的分词形式。
自己理解...
2020-01-08 02:09:32 |
NLP