Jul
18
Posted (xurenlu) in 未分类 on 07月-18-2007

今天突然想起霍炬曾告诉过我的一个日本人开发的全文检索引擎,于是找他问了,并下载下来看了看。
晚上去优酷去混脸熟,主讲的是讲品牌营销的,我不感兴趣,于是在下面打开电脑,学习Hyper Estrainer的文档,现在趁着没忘,做个笔记:

1.Hyper Estraier是一个用C语言开发的全文检索引擎,他是由一位日本人开发的.工程注册在sourceforge.net(http://hyperestraier.sourceforge.net).
2.Hyper的特性:
高速度,高稳定性,高可扩展性…(这可都是有原因的,不是瞎吹)
P2P架构(可译为端到端的,不是咱们下大片用的p2p)
自带Web Crawler
文档权重排序
良好的多字节支持(想一想,它是由日本人开发的….)
简单实用的API(我看了一遍,真是个个都实用,我能看懂的,也就算简单了)
短语,正则表达式搜索(这个有点过了,不带这个,不是好的Full text Search Engine?)
结构化文档搜索能力(大概就是指可以自行给文档加上一堆属性并搜索这些属性吧?这个我没有实验)

3.Hyper Estraier的安装
安装分两步进行:安装QDBM,再安装Hyper estrainer.
Hyper Estraier 需要QDBM来做数据库驱动.为什么不用Mysql/PGSql/Oracle?….想想吧…..我们要的是速度..速度..速度..
QDBM是与NDBM,SDBM,GDBM,TDB,TinyCDB,Berkeley DB相类似的一个,这一些驱动中有些功能欠缺,有些速度慢,作者认为,这其中,QDBM做到了一个较好的平衡.
另外…QDBM的作者也是Mikio Hirabayashi。(开始我以为Ruby的作者也是他,后来查了查Ruby programming,发现是Yukihiro Matsumoto,a.k.a “Matz”.难怪,日本人的英文名字看起来都一样的怪..
首先安装QDBM,安装完以后,再开始Hyper Estrainer的配置.Hyper Estrainer对其他组件的依赖性比较少,config,make过程都很快.一般的问题都是出在没有事先安装QDBM,或是找不到QDBM的头文件。QDBM一般个人很少直接用,所以推荐就默认安装,这样方便Hyper Estrainer 找到它的头文件.

4.Hyper Estraier的文档分为五部分:
a.简介
b.用户指南
c.编程指引
d.P2P架构主法
e.Web蜘蛛

5.使用:

  1. find ./ -name "*.txt" -type f|estcmd gather -cl -fm -cm testdb -

这一命令,将查找当前目录下的所有txt文件,并用Hyper Estrainer索引.索引的数据库名字是testdb.

  1. estcmd search -vx -max 10 testdb 'Fedora core'

这一命令在testdb库中检索Fedora core,结果用xml给出,列出10个结果.

我认为最重要的就是索引文件(estcmd gather)和检索(estcmd search)这两步了.其他的可以运行estcmd 看说明.

6.p2p架构:
Hyper Estrainer 可以多组实例同时运行,不同的Node之间是可以互相通信的.当然,这一组组的node server都可以进行一个node master进行管理.不同的Node server之间可以互相通信.在查询时,可以通过任何一个node server进行查询,这个node server与其他node server间通信,将各个node server之前的search result 组合起来按某个权重排序并返回给Query 用户。同时,不同的node server可以指定不同的priority.
运行

  1. estmaster init testdb

可以产生一个testdb配置目录.然后运行

  1. estmaster start testdb

可以按这个配置来运行一个node master.
发果你没有修改testdb/_config中的服务器地址,那现在可以打开firefox,进入http://localhost:1978/master_ui进行管理。注意默认的用户名密码是admin/admin (我猜这个写程序的大牛一定是1978年生的,人家只比我大5岁,就能写Full-text search engine了).在这个webpage你可以进行node,managers的管理操作.
estmaster命令用来进行node master的管理,estcall 则可以对任一一个node server进行管理,比如

  1. //该例子来自hyperestrainer.sourceforge.net网站
  2. #file data002.est
  3. #
  4. @uri=data002
  5. @title=Liberian Girl
  6.  
  7. Liberian girl
  8. You came and you changed My world
  9. A love so brand new
  10. Then, register document using:
  11. # file data002.est结果.
  12. 在命令行中运行
  13. estcall put -auth clint tnilc http://localhost:1978/node/test2 data002.est
  14. 就直接将tile=Liberian Girl,uri=data002这样一个文档添加到test2这个node的索引中去了.

7.Web 蜘蛛
Hyper Estrainer还自行实现了一个蜘蛛。简要介绍其用法:

  1. estwaver init testdb

将建立一个初始目录。咱们看一个testdb/_conf文件:

  1. 1 seed: 1.5|http://hyperestraier.sourceforge.net/uguide-en.html
  2.   2 seed: 1.0|http://hyperestraier.sourceforge.net/pguide-en.html
  3.   3 seed: 1.0|http://hyperestraier.sourceforge.net/nguide-en.html
  4.   4 .....

这里就设定了小蜘蛛要开始抓的网页的地址了.你可以改成你的博客啥的。

  1. estwaver crawl testdb

这个命令将要抓取.

然后检索呢?其实与前面的用法一样,只不过数据目录变成了testdb/_index了:

  1. estcmd search -vs casket/_index "hyper estraier"

怎么样?心动了吧?这样一套好用的东东,还是以LGPL协议发面的,商业应用起来很爽。偶都打算在我的老台式P3上用他来跑一个搜索引擎,打败Google(……你小子就做梦吧….)

社区全文检索引擎Hyper Estraier 学习笔记[1]

社区全文检索引擎Hyper Estraier 学习笔记[2]

社区全文检索引擎Hyper Estraier 学习笔记[3]


Tag:
相关文章


     
    Apr
    03
    Posted (xurenlu) in php性能 on 04月-3-2007

    武侠小说里常写,无招胜有招.大师们最终都要精通十八门武艺,然后最后学通一门,再融会贯通,突破前人,练就一招独门绝技.
    我曾经折腾着要自己整文本数据库系统,自己整模板系统,自己整MVC框架.自己封装一堆操作,乐此不疲.
    有一天我仔细地研究了Smarty模板的机制,突然良心发现,把我自己折腾的模板系统扔了.因为我发现,模板引擎的引入,初衷是简化表现层的操作,但最终Smarty的语法,已经越来越像一个php,越来越像一个新的WEB脚本了.本来是两层,php引擎解释PHP文件,现在多了一层,php引擎解释smarty引擎,smarty引擎又解释smarty模板.现在smarty的语法还在不断增加,扩展,他们正在努力在php语言的圣殿下,用smarty造一个小房子.
    于是我在做某个网站的两会专题时,文件架构是这样的:
    /view.php
    /model.php
    /index.php
    /config.php
    view.php文件的第一行就声明了:global
    $data;$data是一个多维数组,它的内容已经由index.php来产生.view.php中除开这一句之外,就只包含echo语句和foreach语句了.它们就负责一行行地输出data数组的内容。
    index.php则是入口文件,它包含了config.php,model.php
    ,view.php.虽然不长,我还是给它实现了一个缓存功能.就是如果writable/cache.php文件存在且创建时间在10分钟以内,就直接包含cache.php并退出,否则调用wget将最新的网站显示内容读一份存到writable/cache.php中存起来.index.php是主要的执行文件.
    config.php 则是几行配置信息,比如数据库信息啦之类.
    model.php则是定义的函数的声明。其实这里也就三个函数.
    现在我的工作完成了,余下的工作,就是告诉美工,要改的话,只需要修改view.php文件就行了.这个文件,随便改一下也没啥问题.
    所谓的MVC,其实归根结底,就是可以做到如此简单.
    所以,为什么要用smarty呢.如果要将logic和view分开,很简单,把文件一分为二,其中一个只管显示就行了。如果非要用if else 或是foreach,在smarty中也是要用的,我干吗要再去学smarty的关于if else 和foreach的语法呢,我直接在view.php中使用php标签就行了.
    学透了以后,太多东西其实都可以这样来解决.cookie被认为是不安全的,所以往往一些系统设计了非常复杂的SESSION机制,还写大段大段的代码自行设计了加密算法.首先,加密算法有现成的可用的,没必要自己搞定.再者,看看wordpress,人家也直接在cookie存了用户名和密码.但普通人如果要在cookie中存,往往就存用户名和md5后的密码.但wordpress不这么干,人家把密码md5加密了一次,再用md5加密了一次.你不是说用户可能设置少于6位的密码吗?你不是说少于6位的密码几分钟就可以暴力破解吗?我现在两次md5加密.不就成千上万倍地增加了破解难度了吗?多简单的做法!
    类.我不得不说一下这个.不知道为什么,人们在学会php5下的类操作后,就觉得不管什么,哪怕是写一个文件什么的,一定要封装一下.需知,OOP不是仙药,(原话应该人月神话中的:没有银弹.),OOP仍然不能解决一切,甚至不见得比Function式的编辑解决得更好.如果您决定了要写一堆Class,那么事先告诉我,您保证您写成Class的初衷不是为了好看,不是为了让老板知道您会用class了.
    还有一些仁兄们,喜欢把程序弄得非常好看,优雅.当然如果可能,好看一点的代码谁都喜欢.但是有很多时候,好看是以数倍的性能牺牲为代价的.我在一个短短的php文件中,看到有十个以上的地方使用了eval($variable)类似的语句.(之前看到霍炬的文章我不信,后来见到这份文件我信了).我能想出来的本来可以直接运行的代码非要放进eval中去执行的理由只有:可能这样好看一些.兄弟,如果您对好看与非很在乎的话,我建议您真的应该与您的美工换一换,这样也许能做出来一个很好看的网站!
    有些东西,真不是越复杂越好.把php弄精,两点:多看手册,多问baidu/Google(为了避免卷入google还是baidu之争,我特意两个都写上,并在注意了排序).有时间骂Zend framework太庞杂,Xoops太老套,不如坐下来看看php手册.

    小插曲:有一天同事在争论上面一个”厌”字,下面一个”面”字该读什么,于是各显神通.最后一位同事在baidu知道上搜”上面厌 下面 面”居然就给找出答案来了,那个提问的人问的正是跟我们一样的问题.同事说:我爸爸教育我说,无论你做什么,要记住:总有人可能和我们正在做同样的事情.于是他想到可能会有人困扰这个字怎么读,就想到到baidu知道里来查.(我个人建议,那些认为自己发明了一个新点子,于是马上找风险投资,认为他的创业一定会成功的人,应该想想这个道理).同时,我这位朋友现在可能需要一份工作,他是一名精通DIV+CSS架构的网页设计师,方向是UI/UE/网页设计师,可能更偏html code方向,当然设计的底子也很扎实,如有意麻烦加我:helloasp@hotmail.com


    Tag:
    相关文章


       
      Feb
      15
      Posted (xurenlu) in 未分类 on 02月-15-2007

      年尾了。

      忙得不可开交。自己有点浮躁。阵脚有点乱。

      阿瓦 前天半夜里打电话给我,兴奋地告诉我,他的博客终于成功换到了Wordpress.让我去看。

      可喜可贺。

      其实阿瓦很早就想换到wordpress,不过,因为这样的那样的问题,总未能赶着上线。阿瓦的博客不像我的,没几个人看,评论,注册用户什么的,他都要保留,另外一堆pr达到4,5的页面也要保留。不过现在终于完工了。

      我看了好几天,很不幸的是新网的DNS被人攻击了。所以到今天才得以一睹。不过的皮肤。很清晰。不过,总觉得阴郁。

      霍炬现在离开donews,爽得不得了,逛完西北,又要到最冷的地方去过春节。他说抓虾的徐易容现在每天看他的blog,看他有什么新鲜事儿写。有点意思的人。

      而我,却一点点返朴归真。别的,什么也不想。我只想着,明年,就是花上几千大洋飞回去,也要和家人一起过春节。今年,我就好好学学程序 。离大牛,我还差得远。

      老婆说想弄个网站玩玩,我决定弄一个php论坛她来管理 。跟霍炬和chin 总说了,他们都来嘉宾。不过我的这个名人策略看来一直不敢轻易启动。哈哈。

      过年了!

      情人节快乐!


      Tag:
      相关文章