基于structured svm的中文分词工具
2016-08-23
0 0 0
暂无评分
其他
如何获取积分?
基于structured svm的中文分词工具
此分词工具为本人参加bakeoff2010中文分词比赛时所用模型的一个简化版
技术文档 :http://acl.eldoc.ub.rug.nl/mirror/W/W10/W10-4130.pdf
分词工具 ustcsplit.exe
本工具基于structured svm算法,扩展了跨领域分词和用户自定义词典的功能
使用方法:
ustcsplit.exe ./input.txt ./ngram.entr ./fe.txt ./model ./customlex.txt > out.txt
input.txt为输入文本
ngram.entr为ngram统计信息
fe.txt特征文件
model,structured svm 训练的模型
customlex.txt,用户词典文件用于改善分词效果
out.txt,为输出文件
用户词典文件的作用:
当分词系统在某个词多次出现错误的时候,有时需要立即修正这个错误,又不想重新训练模型,可以在词典文件中加入这个词
演示工具ustc_cws1.0.exe
使用方法:
工具需要文件model,fe.txt,ngram.entr,customlex.txt,ustcseg.dll
分词功能:在输入文本框中输入句子,点击分词按钮。
自定义词典优化功能:可以将需要强制分词的词加入customlex文件中,点击导入用户词典即可动态更新用户词典。
联系方式:cyzhang9@mail.ustc.edu.cn
中文
分词
工具
StructuredSVM
基于
相关源码推荐
数据转换、AES、DES、Hash哈希转换工具
0
0
暂无评分
毛 泽 东字体ttf文件
0
0
暂无评分
139魔域GM工具永久免费无后门
0
0
暂无评分
WPF串口调试助手
0
0
暂无评分
四路语音信号的频分复用模型建立
0
0
暂无评分
暂无评论