python-segment使用示例 // Shell's Home

项目的主页是http://code.google.com/p/python-segment/，如果有问题，可以在上面提交issue，我会收到邮件（google code会么？应该会吧）。如果你希望协助开发，可以加入项目。一些简单问题可以直接看项目的WIKI，Wiki中有的一些内容我不会进一步解释，只会告诉你在那里可以看到。

1.如何获得源码

你可以使用以下代码，直接从版本库中复制一个可用版本出来。

hg clone https://shell909090@code.google.com/p/python-segment/

或者可以从这里下载一个最新版本的包。

2.如何准备环境

你可以看INSTALL，里面讲解的比较详细了。如果你不准备进行安装部署，可以跳过安装和打包这两步。但是如果你打算使用cutter工具，请安装chardet。如果你打算使用spider工具，请安装html2text。

首先按照如下方式生成词典。

gunzip dict.tar.gz
./ps_dbmgr create dict.txt

然后，你可以看到生成了frq.db，这是词典的默认文件名。注意，词典文件的格式和具体的版本有关，换用版本后最好重新生成词典。

3.试验分词

假定有一个文本文件，test.txt，里面内容是中文平文本，编码任意。

./ps_cutter cutshow test.txt

cutter会自动推测编码。

4.代码使用

假如当前有一个frq.db词库。

import segment
cut = segment.get_cutter('frq.db')
print list(cut.parse(u'工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'))

注意，仅仅使用parse是不会进行分词的，因为parse返回的是一个生成器。