推荐一个相当不错的分词程序:nlpbamboo,这个好像就是起源于雅虎中国。
[准确地说,它不只是一个中文分词安案。]
bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。
1. Bamboo项目是一个基于机器学习技术的中文自然语言处理平台。
2. Bamboo项目的主要目标:
* 中文分词
* 词性标注
* 命名实体识别
* 主题词抽取
bamboo提供了C,PHP,PostgreSQL的编程接口。 详情请参考:
* ApplicationInterface
* InstallPHPExtension
* TSearch2
这个项目托管在google code上,链接:http://code.google.com/p/nlpbamboo/.
之前这个程序需要跑n久才能从一大堆文本中训练一个可用的索引来。现在好了,有位热心兄弟训练了一个库,放出来提供下载了。我试了试,效果不错:
人名和地名啥的都能识别,一些专业名词也能识别了:
你认识王大刚吗?
你 认识 王大刚 吗 ?
我出生于湖北省宜昌市的一个小山村
我 出生 于 湖北省 宜昌市 的 一个 小 山村
需要 依法 到 朝阳区 工商局 去 注册