CodeForge QQ客服 CodeForge 400电话 客服电话 4006316121
首页 » 源代码 » 基于ICTCLAS的中文分词程序MyCLAS和用户词典管理程序MyDict

基于ICTCLAS的中文分词程序MyCLAS和用户词典管理程序MyDict

liange
发布于2016-05-18 08:02:03
源码作者
浏览次数:
下载次数:1
下载所需积分:1 
源码分类 Tags:
源码分类 所属分类:
AllAll

分享有礼! 》

  • 请点击右侧的分享按钮,把本代码分享到各社交媒体。
  • 通过您的分享链接访问Codeforge,每来2个新的IP,您将获得0.1 积分的奖励。
  • 通过您的分享链接,每成功注册一个用户,该用户在Codeforge上所获得的每1个积分,您都将获得0.2 积分的分成奖励。

代码介绍

基于ICTCLAS的中文分词程序MyCLAS和用户词典管理程序MyDict

1. 介绍:

1) 中科院计算所开发的中文分词和词性标注程序*ICTCLAS,在性能和准确性上都较优;但是由于使用C语言开发,因此如果需要在Web应用程序使用ICTCLAS分词结果的话,将不是很方便。

为了解决该问题,我借助于共享版ICTCLAS提供的API使用C语言开发了简易的中文分词和词性标注程序: MyClas

它可以从标准输入中获取要处理的字符串,然后进行分词和词性标注,并将结果输出到标准输出中。

这样,假如需要在PHP编写的Web应用程序中对一个字符串进行中文分词和词性标注,可以使用如下代码:

$content="要处理的字符串";$command="print ".$content."|myclas.exe";$outputArray=null;exec($command,$outputArray);

处理后的结果将保存到数组$outputArray中,便于使用PHP进行下一步操作。

由于如上是直接调用myclas.exe对字符串进行处理,而myclas.exe使用ICTCLAS提供的API进行编写,因此在性能上会和直接使用ICTCLAS处理几乎一样。

2) 共享版的ICTCLAS还提供了*用户自定义词典*的功能,大大方便了用户来订制符合自己需求的用户词典。

为了便于用户自定义词典的管理,我借助于共享版ICTCLAS提供的API使用C语言开发了简易的用户词典管理程序: MyDict

它可以方便地对用户的自定义词典进行:词汇搜索;单个词汇添加;单个词汇删除;多个词汇添加;多个词汇删除;重新导入词典等功能

MyDict在命令行下运行,用户通过添加不同的参数实现相应的功能。

3) 目前MyClas和MyDict仅适用于 Win32平台

2. 具体使用:

1) 下载:

下载并解压,进入到myclas文件夹,会看到2个可执行文件 myclas.exemydict.exe ,及其他文件。 不需要对其他文件进行任何设置

2) 使用myclas.exe :

myclas分词程序有多种使用方法:

a. 直接双击运行myclas.exe,然后输入要分词的字符串,会直接输出分词结果;然后继续输入...;按Ctrl+C终止;

b. 在命令行下输入: echo 要处理的字符串 | myclas.exe 会显示分词结果;

c. 在PHP等脚本中使用: $content="要处理的字符串";$command="print ".$content."|myclas.exe";$outputArray=null;exec($command,$outputArray);print_r($outputArray);

这样处理后的结果就保存到$outputArray数组中了。

注:myclas.exe默认处理的中文编码为GBK,因此如果是UTF-8的话,需要首先使用 $content=iconv("UTF-8","GBK//IGNORE",$content); //转换为GBK;

然后处理;最后在使用结果数组$outputArray的时候,再使用 for($i=0;$i<count($outputArray);$i++){ $row=$outputArray[$i]; $row=iconv("GBK","UTF-8//IGNORE",$row); //转换回UTF-8;}

3) 使用mydict.exe管理用户自定义词典

mydict.exe在命令行下工作,主要用于管理用户的词典: 在命令行下输入mydict.exe,会显示如下帮助信息:

```

Manage the user dic. Usage:

mydict -s Token //Search a token 说明:搜索某个token是否存在用户自己字典中,例如输入:mydict -s 姚明 (第二个数字:0表示在默认字典中, 1表示在用户自定义词典中, 2表示未登录词)

mydict -a Token [Tag] //Add a Token 说明:添加一个自定义词汇。 添加的格式为:Token空格Tag。可以不添加Tag,但是还是建议添加,否则默认为n名词。 Tag可以为任意,但是不能超过8个字符,否则只获取前8个字符。 例如:mydict -a 姚明 player

mydict -af Filename //Add Tokens from File 说明:一次添加多个自定义词汇。 从文本文件中导入,格式为:每行为Token\tTag 例如:mydict -af userdict.txt 其中userdict.txt中为: 姚明\tplayer 科比\tplayer ... 等格式

mydict -d Token //Delete a token 说明:删除一个自定义词汇。从自定义词典中删除指定的Token。 例如:mydict -d 姚明

mydict -df Filename //Delete Tokens from File 说明:一次删除多个自定义词汇。从自定义词典中删除文本文件中定义的Token,每行为一个Token。 例如:mydict -df userdict.txt 其中userdict.txt中为: 姚明 科比 ... 等格式

mydict -i Filename //Import new dic 说明:重新导入用户词典中的所有词,覆盖之前的用户词典 例如:mydict -i userdict.txt ```

Ʋ

源码文件列表

温馨提示: 点击源码文件名可预览文件内容哦 ^_^
...
名称 大小 修改日期
Configure.xml737.00 B27-06-09 22:24
BiWord.big3.36 MB16-01-09 13:48
charset.type64.00 kB16-01-09 13:48
CoreDict.pdat1.62 MB16-01-09 13:48
CoreDict.pos1.70 MB16-01-09 13:48
CoreDict.unig466.96 kB16-01-09 13:48
FieldDict.pdat256.09 kB16-01-09 13:48
FieldDict.pos72.00 B16-01-09 13:48
GranDict.pdat1.89 MB16-01-09 13:48
GranDict.pos1.70 MB16-01-09 13:48
ICTCLAS30.ctx36.38 kB16-01-09 13:48
ICTCLAS_First.map288.00 B16-01-09 13:48
ICTPOS.map406.00 B16-01-09 13:48
nr.ctx2.16 kB16-01-09 13:48
nr.fsa2.94 kB16-01-09 13:48
nr.role1.68 MB16-01-09 13:48
PKU.map307.00 B16-01-09 13:48
PKU_First.map288.00 B16-01-09 13:48
UserDict.pdat116.00 B28-06-09 13:47
<Data>0.00 B28-06-09 13:47
ICTCLAS30.dll256.00 kB01-04-09 00:27
<ICTCLAS30.log>0.00 B16-07-09 16:28
myclas.exe31.00 kB27-06-09 22:20
mydict.exe35.00 kB28-06-09 13:36
<myclas+mydict>0.00 B29-06-09 23:20
云测速

资源评论

(提交有效评论获得积分)
评论内容不能少于15个字,不要超出160个字。
  • 1
  • 第1页
  • 共1页

基于ICTCLAS的中文分词程序MyCLAS和用户词典管理程序MyDict (2.89 MB)

需要 1 积分
您持有 积分

CodeForge积分(原CF币)全新升级,功能更强大,使用更便捷,不仅可以用来下载海量源代码马上还可兑换精美小礼品了 了解更多

您的积分不足,优惠套餐快速获取 30 积分

订单支付完成后,积分将自动加入到您的账号。以下是优惠期的人民币价格,优惠期过后将恢复美元价格。

更多付款方式:网银PayPal

上传代码,免费获取CodeForge积分

您本次下载所消耗的积分将转交上传作者。

同一源码,30天内重复下载,只扣除一次积分。

登录 CodeForge

还没有CodeForge账号? 立即注册
关注微博
联系客服

Switch to the English version?

Yes
CodeForge 英文版
No
CodeForge 中文版

完善个人资料,获价值¥30元积分奖励!

^_^"呃 ...

Sorry!这位大神很神秘,未开通博客呢,请浏览一下其他的吧
好的