自然语言处理工具pyhanlp分词与词性标注

博客分类：

人工智能，机器学习

Pyhanlp分词与词性标注的相关内容记得此前是有分享过的。可能时间太久记不太清楚了。以下文章是分享自“baiziyu”所写（小部分内容有修改），供大家学习参考之用。简介 pyhanlp是HanLP的Python接口。因此后续所有关于pyhanlp的文章中也会写成HanLP。HanLP是完全用Java自实现的自然语言处理工具包。特点是完全用Java实现不引入第三方工具包。完全开源。中文的开源工具能做到这么完整的大概只有HanLP。包括了词法分析、句法分析、分类、聚类、关键词抽取等常见NLP应用任务。并且github上问题回答快，作者很是认真的解决大家提出的问题。虽然用Java实现， ...

2019-05-18 10:10
浏览 615
评论(0)
分类:编程语言

自然语言处理工具HanLP-N最短路径分词

博客分类：

人工智能，机器学习

N最短路径分词

本篇给大家分享baiziyu 写的HanLP 中的N-最短路径分词。以为下分享的原文，部分地方有稍作修改，内容仅供大家学习交流！首先说明在HanLP对外提供的接口中没有使用N-最短路径分词器的，作者在官网中写到这个分词器对于� ...

2019-05-17 09:45
浏览 323
评论(0)
分类:编程语言

比较好的中文分词方案汇总推荐

博客分类：

人工智能，机器学习

python

中文分词是中文文本处理的一个基础步骤，也是中文人机自然语言交互的基础模块。不同于英文的是，中文句子中没有词的界限，因此在进行中文自然语言处理时，通常需要先进行分词，分词效果将直接影响词性、句法树等� ...

2019-05-13 10:12
浏览 330
评论(0)
分类:编程语言

自然语言处理工具hanlp 1.7.3版本更新内容一览

博客分类：

人工智能，机器学习

算法

HanLP 1.7.3 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包，目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。在提供丰富功能的同时，HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用非常方便，同时自带一些语料处理工具，帮助用户训练自己的模型。新版更新内容： 1.感知机词法分析器默认使用98年人民日报6个月的大模型

2019-05-10 10:31
浏览 292
评论(0)
分类:编程语言

Spark中分布式使用HanLP（1.7.0)分词示例

博客分类：

大数据 hanlp
人工智能，机器学习

spark

HanLP分词，如README中所说，如果没有特殊需求，可以通过maven配置，如果要添加自定义词典，需要下载“依赖jar包和用户字典". 分享某大神的示例经验: 是直接"java xf hanlp-1.6.8-sources.jar" 解压源码，把源码加入工程（依赖本地jar包，有些麻烦，有时候到服务器有找不到jar包的情况) 按照文档操作，在Spark中分词，默认找的是本地目录，所以如果是在driver中分词是没有问题的。但是如果要分布式分词，是要把词典目录放在HDFS上面，因为这样每台机器才可以访问到【参考代码】最好把新增词典放在首位（没有 ...

2019-05-08 09:48
浏览 481
评论(0)
分类:编程语言

如何在java中去除中文文本的停用词

博客分类：

大数据 hanlp

1. 整体思路第一步：先将中文文本进行分词，这里使用的HanLP-汉语言处理包进行中文文本分词。第二步：使用停用词表，去除分好的词中的停用词。 2. 中文文本分词环境配置使用的HanLP-汉语言处理包进行中文文本分词。 ·HanLP-汉语言处理包下载，可以去github上下载 ·HanLP 的环境配置有两种方式：方式一、Maven；方式二、下载jar、data、hanlp.properties。 ·

2019-05-06 10:43
浏览 508
评论(0)
分类:编程语言

java中利用hanlp比较两个文本相似度的步骤

博客分类：

人工智能，机器学习
hanlp

使用 HanLP - 汉语言处理包来处理，他能处理很多事情，如分词、调用分词器、命名实体识别、人名识别、地名识别、词性识别、篇章理解、关键词提取、简繁拼音转换、拼音转换、根据输入智能推荐、自定义分词器使用很简单，只要引入hanlp.jar包，便可处理（新版本的hanlp安装包可以去github下载安装），下面是某位大神的

2019-05-06 10:40
浏览 688
评论(0)
分类:编程语言

hanlp 加载远程词库示例

博客分类：

人工智能，机器学习

<div class="iteye-blog-content-contain" style="font-size: 14px"></div> 说明 ·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库，对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现按hanlp作者述 trie后期可能会取消目前CustomDictionary使用DAT储存词典文件中的词语，用BinTrie储存动态加入的词语，前者性能高，后者性 ...

2019-04-26 11:49
浏览 424
评论(0)
分类:编程语言

HanLP 自然语言处理 for nodejs

博客分类：

人工智能，机器学习

·支持中文分词（N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注），命名实体识别（中国人名、音译人名、日本人名、地名、实体机构名识别），关键词提取，自动摘要，短语提取，拼音转换，简繁转换，文本推荐，依存句法分析（MaxEnt依存句法分析、CRF依存句法分析）环境要求 java 1.8 nodejs >= 6 docker ·

2019-04-24 11:03
浏览 333
评论(0)
分类:编程语言

HanLP Analysis for Elasticsearch

博客分类：

人工智能，机器学习

基于 HanLP 的 Elasticsearch 中文分词插件，核心功能：兼容 ES 5.x-7.x；内置词典，无需额外配置即可使用；支持用户自定义词典；支持远程词典热更新（待开发）；内置多种分词模式，适合不同场景；拼音过滤器（待开发）；简繁体转换过滤器（待开发）。版本插件版本和 ES 版本一致，直接下载对应版本的插件进行安装即可。

2019-04-22 13:55
浏览 465
评论(0)
分类:编程语言

HanLP vs LTP 分词功能测试

博客分类：

人工智能，机器学习

文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0 测试思路使用同一份语料训练两个分词库，同一份测试数据测试两个分词库的性能。语料库选取1998年01月的人民日报语料库。199801人民日报语料该词库带有词性标注，为了遵循LTP的训练数据集格式，需要处理掉词性标注。测试数据选择SIGHan2005提供的开放测试集。

2019-04-19 11:04
浏览 487
评论(0)
分类:编程语言

HanLP中文分词Lucene插件

博客分类：

HanLP中文分词，Lucene插件

hanlp分词

基于HanLP，支持包括Solr（7.x）在内的任何基于Lucene（7.x）的系统。 Maven <dependency> <groupId>com.hankcs.nlp</groupId> <artifactId>hanlp-lucene-plugin</artifactId> <version>1.1.6</version> </dependency> Solr快速上手 1.将hanlp-portable. ...

2019-04-15 10:44
浏览 577
评论(0)
分类:编程语言

hanlp的python接口

博客分类：

Python，hanlp

HanLP的Python接口，支持自动下载与升级HanLP，兼容py2、py3。安装 pip install pyhanlp 使用命令hanlp来验证安装，如因网络等原因自动安装失败，可参考手动配置或Windows指南。命令行中文分词使用命令hanlp segment进入交互分词模式，输入一个句子并回车，HanLP会输出分词结果：

2019-04-12 11:05
浏览 549
评论(0)
分类:编程语言

Hanlp自然语言处理工具之词法分析器

博客分类：

大数据 hanlp
汉语言处理包，

本章是接前两篇《分词工具Hanlp基于感知机的中文分词框架》和《基于结构化感知机的词性标注与命名实体识别框架》的。本系统将同时进行中文分词、词性标注与命名实体识别3个任务的子系统称为“词法分析器”。加载对应的类为PerceptronLexicalAnalyzer，其构造方法为递增的3个模型地址： l public PerceptronLexicalAnalyzer(String cwsModelFile) throws IOException <!--[if !s ...

2019-04-10 10:30
浏览 478
评论(0)
分类:编程语言

基于结构化感知机的词性标注与命名实体识别框架

博客分类：

大数据
词性标注，命名实体识别

上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》，本篇接上一篇内容，继续分享词性标注与命名实体识别框架的内容。词性标注训练词性标注是分词后紧接着的一个任务，训练语料同上，接口如下：命令行 java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task POS -train -reference data/test/pku98/199801.txt -model data/test/perceptron/pos.bin

2019-04-08 14:18
浏览 566
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

自然语言处理工具pyhanlp分词与词性标注

自然语言处理工具HanLP-N最短路径分词

比较好的中文分词方案汇总推荐

自然语言处理工具hanlp 1.7.3版本更新内容一览

Spark中分布式使用HanLP（1.7.0)分词示例

如何在java中去除中文文本的停用词

java中利用hanlp比较两个文本相似度的步骤

hanlp 加载远程词库示例

HanLP 自然语言处理 for nodejs

HanLP Analysis for Elasticsearch

HanLP vs LTP 分词功能测试

HanLP中文分词Lucene插件

hanlp的python接口

Hanlp自然语言处理工具之词法分析器

基于结构化感知机的词性标注与命名实体识别框架

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>