继前面创建的项目一个个悄无声息以后,我又创建了一个开源项目hyer: http://code.google.com/p/hyer/ 这是一个python写就的spider,目前很小,只有几K,但是已经可以支持robots.txt协议和cookies,并且加入了事件机制,因为可以方便地为这个项目开发插件。有了插件的支持,这个spider就可以用来做各种各样的事情,用在各种目的上。 举些例子: A.在网页设计师做好静态网页时,往往将链接设为”#”.在php程序员套程序时,经常有一些链接会忘了修改过来,留下很多置为”#”的坏链接。hyer在解析网页是遇到链接时,会产生一个new_original_url的事件,如果您的插件,设定在这个事件中检查新链接是否为”#”,如果是“#”就输出一个提示和当前页面的地址。这样这个插件就可以帮我们检查整个站点的程序套完了没有,有没有链接没有修改。 B.同上,在某个链接无法访问是,也有一个事件:url_fetch_error被激发。如果我们的插件设定此时输入URL地址,就可以做成一个死链检查工具。 … 有兴趣的同学可以一起做。我建了一个讨论组: http://groups.google.com/group/hyer-spider