Echo Blog

江湖无名安心练剑

TF-IDF 自动提取关键词
自动提取关键词这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高...
2020-01-09 02:09:32 | Search

TF-IDF 自动生成文章摘要
自动摘要有时候，很简单的数学方法，就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频，就能找出关键词和相似文章。虽然它们算不上效果最好的方法，但肯定是最简便易行的方法。今天，依然继续这个主题。讨论如何通过词频，对文章进行自动摘要（Automatic summarization）。如果能从3000字的文章，提炼出150字的摘要，就可以为读者节省大...
2020-01-09 02:09:32 | Search

倒排索引原理与实现
关于倒排索引场景是：给定几个关键词，找出包含关键词的文档倒排索引：不是由记录来确定属性值，而是由属性值来确定记录的位置 lucene 是基于倒排索引实现的。倒排文件(inverted file)：存储倒排索引的物理文件倒排索引组成：单词词典和倒排文件。倒排索引一般表示为一个关键词，然后是它的频度（出现的次数），位置（出现在哪一篇文章或网页中，及有关的日期，作者等信息）...
2020-01-09 02:09:32 | Search

java 实现 OCR 图片文字识别
OCR图像识别技术的JAVA实现最近有个需求需要用图像识别，学习记录一下。目前网络上的开源的图像识别技术有很多，例如 OCRE(OCR Easy)、Clara OCR、OCRAD、TESSERACT-OCR 等。今天本blog将记录下tesseract-ocr的JAVA实现，便于以后查阅使用。开源 ocr 引擎 https://github.com/search?q=ocr...
2020-01-09 02:09:32 | OCR

java 实现 OCR 图片文字识别中文
背景我们上一节讲过了针对英文的 ocr 实现，现在我们来尝试一下中文识别。我们准备一张简单的中文图片：准备工作下载中文训练集下载地址所有语言的训练集此处直接下载简体中文训练集，然后将其拷贝到我们的 tessdata 文件夹中： C:\Program Files (x86)\Tesseract-OCR\tessdata maven 引入 <dep...
2020-01-09 02:09:32 | OCR

special chars 特殊符号汇总
特殊符号特殊符号列表 ≠≡⁄≤≥«#©¨!¯&®'$¬%£*+¢¡(≈)§./¦¥,»¸¾¿¼½;:°±¶?·>=´<@♠←↑→♣↓↔♥∩♦∫–—‚’×‘^„”◊“†‡•∂€…∏™‰″′˜−∑‹∞÷~|›√‾￥` QQ ︻︼︽︾〒↑↓☉⊙●〇◎¤★☆■▓「」『』◆◇▲△▼▽◣◥◢◣◤ ◥№↑↓→←↘↙Ψ※㊣∑⌒∩【】〖〗＠ξζω□∮〓※》∏卐√ ╳々♀♂∞①ㄨ...
2020-01-08 02:09:32 | Java

number 数字与中文
数字的写法转换代码 private static final String NUM_ONE = "⓪０零º₀⓿○" + "１２３４５６７８９" + "一二三四五六七八九" + "壹贰叁肆伍陆柒捌玖" + "¹²³⁴⁵⁶⁷⁸⁹" + "₁₂₃₄₅₆₇₈₉" + ...
2020-01-08 02:09:32 | Java

结巴分词之词性标注实现思路 speechTagging
词性标注词性标注的在分词之后进行标注，整体思路也不难：（1）如果一个词只有一种词性，那么直接固定即可。（2）如果一个词有多种词性，那么需要推断出最大概率的一种。这个其实有些类似分词的时候做的事情，分词的过程中也是存在多种选择，然后选择概率最大的一种（当然那个是采用的动态规划）。 HMM 在分词的过程中主要针对的是未登录词。动态规划用于计算最大概率的分词形式。自己理解...
2020-01-08 02:09:32 | NLP

«
52
53
54
55
56
57
58
59
60
61
»