用python开发SeachEngin spiders的构想:

用python开发SeachEngin spiders的构想:

1.首先,spiders应该有一个控制中心。

2.每一个spider占用的资源都是有限的,并且是不太可靠的。如果哪个spider不能胜任,它也不会影响整个系统的运行。

3.spider们的任务也是各自分开的,分为以下几种:

读取WWW文件,储存内容。

分析html文件,获取它包含的链接。一般每个网页都能找出不少链接。

读取html内容,进行过滤处理。主要是把垃圾信息丢掉,比如HTML标签,为作弊而设置的一些内容。

对”净化”后的文件分段,分句,分词,索引,存入索引库.

4.读得的内容要进行分析,其中最难的部分是一个分析过程,比如去除无关信息,分词处理等.

5.分词可以自定义接口,然后做成一个factory模式,可以加载不同的分词器。比如上次做过的,简单分词法:英文按空格来分词,中文则机械地按四个字节(gbk码)或6个字节(UTF-8编码)来分词,这样每两个汉字构成一个词。这个缺点是分词准确率相当低,但是,在频率统计上,相似度分析上是有一定用处的。


本文由蝌蚪安尼友情赞助.
此条目发表在 未分类 分类目录。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已被标记为 *

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>