项目的主页是http://code.google.com/p/python-segment/,如果有问题,可以在上面提交issue,我会收到邮件(google code会么?应该会吧)。如果你希望协助开发,可以加入项目。一些简单问题可以直接看项目的WIKI,Wiki中有的一些内容我不会进一步解释,只会告诉你在那里可以看到。

1.如何获得源码

你可以使用以下代码,直接从版本库中复制一个可用版本出来。

hg clone https://shell909090@code.google.com/p/python-segment/

或者可以从这里下载一个最新版本的包。

2.如何准备环境

你可以看INSTALL,里面讲解的比较详细了。如果你不准备进行安装部署,可以跳过安装和打包这两步。但是如果你打算使用cutter工具,请安装chardet。如果你打算使用spider工具,请安装html2text。

首先按照如下方式生成词典。

gunzip dict.tar.gz
./ps_dbmgr create dict.txt

然后,你可以看到生成了frq.db,这是词典的默认文件名。注意,词典文件的格式和具体的版本有关,换用版本后最好重新生成词典。

3.试验分词

假定有一个文本文件,test.txt,里面内容是中文平文本,编码任意。

./ps_cutter cutshow test.txt

cutter会自动推测编码。

4.代码使用

假如当前有一个frq.db词库。

import segment
cut = segment.get_cutter('frq.db')
print list(cut.parse(u'工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'))

注意,仅仅使用parse是不会进行分词的,因为parse返回的是一个生成器。