繁简转换
HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。
·说明
· HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“huang hou”中的两个“后”字,HanLP可以。
·算法详解
· 《汉字转拼音与简繁转换的Java实现》
汉字转拼音
HanLP中的汉字转拼音功能也十分的强大。
·说明
· HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。
· HanLP能够识别多音字,也能给繁体中文注拼音。
· 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArrayTrie,性能大幅提升,能够提供毫秒级的响应速度!
·算法详解
· 《汉字转拼音与简繁转换的Java实现》
字符正则化
演示正规化字符配置项的效果(繁体->简体,全角->半角,大写->小写)。
该配置项位于hanlp.properties中,通过Normalization=true来开启(现在直接通过HanLP.Config.Normalization开启即可)。
切换配置后必须删除CustomDictionary.txt.bin缓存,否则只影响动态插入的新词。
在我动笔前一个星期,已经有同学添加了,添加自定义词典之后,自动删除缓存的功能。地址请点击https://github.com/hankcs/HanLP/pull/954,现在只需要开启正则化即可
1| HanLP.Config.Normalization = False
2|
3| [爱听4g]
4| [爱听4G]
5| [爱, 听, 4, G]
6| [爱, 听, 4, G]
7| [愛, 聽, 4, G]
8| [喜欢, 4, G]
9| [hankcs, 在, 臺, 灣寫, 代, 碼]
10|
11| HanLP.Config.Normalization = True
12|
13| [爱听4g]
14| [爱听4g]
15| [爱听4g]
16| [爱听4g]
17| [爱听4g]
18| [喜欢, 4, g]
19 |[hankcs, 在, taiwan, 写, 代码]
20| 現在的HanLP已經新增了新增自定義詞典之後,自動刪除快取的功能,現在只需要開啟正則化即可
21| [现在, 的, hanlp, 已经, 新增, 了, 新增, 自定义, 词典, 之后, ,, 自动, 删除, 快, 取, 的, 功能, ,, 现在, 只, 需要, 开启, 正, 则, 化, 即可]
---------------------
相关推荐
VB繁体简体转换程序,Big5-GB转换,支持逆运算,也就是可以把简体转换繁体,繁体转换成简体中文,支持批量转换,压缩包内一共3个实例代码,并包括了一个API繁简转换类,专用于VB6.0,三个程序的转换效果都挺不错,...
Delphi繁简转换类代码,GB码、BIG5码转换和简繁体转换表,内码转换对照表作者:简繁体转换对照表:李春德。 MAP 为GB-BIG5对照 MAP2 为BIG5-GB对照 MAP3 为GBK简-GBK繁对照 MAP4 为GBK繁-GBK简对照 ...
正则表达式需要转义的特殊字符 一定要注意书写规范。
正则表达式判断不包涵特殊字符(除了 指定字符 以外)
typescript使用nodejs实现简繁体转换,可以转换子文件夹, 运行方式:将文件复制到工程的files文件夹,运行node app.js "" s2t(简体转繁体)或node app.js "" t2s(繁体转简体)即可
C#汉字转拼音(npinyin)将中文转换成拼音全文或首字母
正则表达 转义字符正则表达 转义字符正则表达 转义字符正则表达 转义字符正则表达 转义字符
用于BIG5与GB的转换,非常方便,尤其是能将点晴中搜索出来的字符串简体化,便于查看或汉化。推荐中,配合点晴使用,用来汉化DELPHI程序。
isMobileSimple : 验证手机号(简单) isMobileExact : 验证手机号(精确) isTel : 验证电话号码 isIDCard15 : 验证身份证号码15位 isIDCard18 : 验证身份证号码18位 ...getReplaceAll : 替换所有正则匹配的部分
匹配3个连续的相同字符的正则表达式写法。和验证是否是连续数字或字母的js写法。
写了个转换字符的类,汉字(简繁体)转换拼音首字母编码 包括:全角字母数字转换。输入:任意字符串, 输出:字母加数字。 PyZm(ByVal Str As String, Optional ByVal FH As Integer = 0):获取单字母码串。 Dyz...
C#字符串和正则表达式参考手册》》》》》》》》》》》
python字符串与正则表达式
利用正则表达式,匹配中文字符的正则表达式,利用正则表达式分解和转换IP地址
java 字符串 详细实例代码 字符串检索 可改变字符串 字符串生成器 日期和时间字符串格式化
Java过滤特殊字符的正则表达式
labview格式化字符串与正则表达式
正则表达式特殊字符的转义,常用网页特殊字符转义,网络爬虫特殊字符处理
字符串、字符和正则表达式基本知识,讲述C#中的字符串常见属性和方法。
2 强大正则表达式支持字符编码转换软件 是唯一同时支持用正则表达式匹配和排除要转换文件夹的批量编码转换工具。 批量字符编码转换工具是文件编码转换的最佳工具。是您必备的unicode编码转换器,它帮助您快速完成编码...