推荐一个相当不错的分词程序:nlpbamboo,这个好像就是起源于雅虎中国。 [准确地说,它不只是一个中文分词安案。]

bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。 1. Bamboo项目是一个基于机器学习技术的中文自然语言处理平台。 2. Bamboo项目的主要目标: * 中文分词 * 词性标注 * 命名实体识别 * 主题词抽取 bamboo提供了C,PHP,PostgreSQL的编程接口。 详情请参考: * ApplicationInterface * InstallPHPExtension * TSearch2

这个项目托管在google code上,链接:http://code.google.com/p/nlpbamboo/. 之前这个程序需要跑n久才能从一大堆文本中训练一个可用的索引来。现在好了,有位热心兄弟训练了一个库,放出来提供下载了。我试了试,效果不错: 人名和地名啥的都能识别,一些专业名词也能识别了:

你认识王大刚吗? 你 认识 王大刚 吗 ? 我出生于湖北省宜昌市的一个小山村 我 出生 于 湖北省 宜昌市 的 一个 小 山村 需要 依法 到 朝阳区 工商局 去 注册