python-segment使用示例
项目的主页是http://code.google.com/p/python-segment/,如果有问题,可以在上面提交issue,我会收到邮件(google code会么?应该会吧)。如果你希望协助开发,可以加入项目。一些简单问题可以直接看项目的WIKI,Wiki中有的一些内容我不会进一步解释,只会告诉你在那里可以看到。
1.如何获得源码
你可以使用以下代码,直接从版本库中复制一个可用版本出来。
hg clone https://shell909090@code.google.com/p/python-segment/
或者可以从这里下载一个最新版本的包。
2.如何准备环境
你可以看INSTALL,里面讲解的比较详细了。如果你不准备进行安装部署,可以跳过安装和打包这两步。但是如果你打算使用cutter工具,请安装chardet。如果你打算使用spider工具,请安装html2text。
首先按照如下方式生成词典。
gunzip dict.tar.gz
./ps_dbmgr create dict.txt
然后,你可以看到生成了frq.db,这是词典的默认文件名。注意,词典文件的格式和具体的版本有关,换用版本后最好重新生成词典。
3.试验分词
假定有一个文本文件,test.txt,里面内容是中文平文本,编码任意。
./ps_cutter cutshow test.txt
cutter会自动推测编码。
4.代码使用
假如当前有一个frq.db词库。
import segment
cut = segment.get_cutter('frq.db')
print list(cut.parse(u'工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'))
注意,仅仅使用parse是不会进行分词的,因为parse返回的是一个生成器。