HanLP 能够提供自然语言处理,中文分词,词性标注,命名实体识别,依存句法分析,关键词提取,自动摘要,短语提取,拼音,简繁转换等特性。本文主要是?HanLP 的入门介绍篇。
更多精彩内容请看 web 前端中文站
http://www.lisa33xiaoq.net 可按 Ctrl + D 进行收藏
HanLP 全称是 Han Language Processing,中文为:汉语言处理包。
HanLP是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP提供下列功能:
- 中文分词
- 词性标注
- 命名实体识别
- 关键词提取
- 自动摘要
- 短语提取
- 拼音转换
- 简繁转换
- 文本推荐
- 依存句法分析
- 语料库工具
其中中文分词有 6 种处理算法:
- 最短路分词
- N-最短路分词
- CRF 分词
- 索引分词
- 极速词典分词
- 用户自定义词典
命名实体识别也有 5 中算法:
- 中国人名识别
- 音译人名识别
- 日本人名识别
- 地名识别
- 实体机构名识别
关键词提取主要算法是:TextRank 关键词提取。自动摘要主要是 TextRank 自动摘要算法。还有基于互信息和左右信息熵的短语提取算法。
拼音转换方面有:
- 多音字
- 声母
- 韵母
- 声调
简繁转换
- 繁体中文分词
- 简繁分歧词(简体、繁体、臺灣正體、香港繁體)
文本推荐
- 语义推荐
- 拼音推荐
- 字词推荐
依存句法分析
- 基于神经网络的高性能依存句法分析器
- MaxEnt 依存句法分析
- CRF 依存句法分析
语料库工具
- 分词语料预处理
- 词频词性词典制作
- BiGram 统计
- 词共现统计
- CoNLL 语料预处理
- CoNLL UA/LA/DA 评测工具
目前 HanLP 汉语言处理包在 github 上开源以来,累计 star 已快突破 5000 了。在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。
【注:本文源自网络文章资源,由站长整理发布】