May
22
Posted (xurenlu) in 未分类 on 05月-22-2008

我用的机器是和覃健祥和另外一个朋友合租的,配置还行,现在托管在光华路,几个人都只放个把博客啥的,机器比较闲,有点儿浪费money。
因此我们决定:将机器搬迁到一个比较便宜的机房,同时再找几个人合租。
预计新机房将于5月25日左右搬迁,大约需要4500/年的托管费,机房在北京,几个人平摊这个费用,机器是覃健祥的。我们现在有三个人,希望整体合租用户控制在7个人以下。
对了,机器运行在一个Redhat家族的centos Linux上,Web服务由Lighttpd提供,数据库服务是mysql.比经典的LAMP组合更好,唯对代码技术稍稍有一点要求,当然我们都是有点经验的开发工程师,如果您不是喜欢整天倒腾的话,我们可以代您安装您需要的程序。
有愿意合租的朋友可以联系我:
Msn:helloasp@hotmail.com
雅虎通:xurenlu
邮箱:xurenlu@126.com


Tag:
相关文章


     
    May
    17
    Posted (xurenlu) in 未分类 on 05月-17-2008

    让我无为不幸的人们祈祷。
    让我们一同祈祷,一同祝福。



    Tag:
    相关文章


       
      May
      14
      Posted (xurenlu) in 未分类 on 05月-14-2008

      看图,莫说话.



      Tag:
      相关文章


         
        May
        07
        Posted (xurenlu) in 未分类 on 05月-7-2008

        不容易啊,终于能轻松出入深水区了。
        这几天坚持天天去健身房,
        但是一直是在水里瞎扑腾,不敢过深水区。狗刨我倒是会,不过一来毕竟不好意思跟人说我会狗刨,二来狗刨太累,从泳池这头到那头,我肯定坚持不下去。
        前几天刚去是,那个教练老头老是诱惑我跟他学,主意是好主意,一想到那费用,我还是决定慢慢在水里扑腾好了。
        现在终于能轻松地过深水区了,看来瞎琢磨也还是蛮有效的,嘿嘿。
        昨天去还被鄙视了,原由是:我正在浅水区瞎整时,看到从入口一下进来四个穿着很漂漂的泳衣的身材不错的MM,直接就下来在我旁边站着,也没有要游泳的意思,还一个劲儿把我瞅着,欲言又止的样子。我心里想着,干嘛呀,难道是…..这时地面上那个身高足有1.9往上的MM教练走近我大声说:先生,我们要在这上课,请您到那边甬道游那吗?……
        就为这,我一怒之下冲过了深水区…..发现原来深水区我也能过了…..


        Tag:
        相关文章


           
          May
          04
          Posted (xurenlu) in 未分类 on 05月-4-2008

          今天统计里面一排排的搜索来源关键词,全是兰董兰董,兰董同学暴发了吗?


          Tag:
          相关文章


             
            May
            03
            Posted (xurenlu) in 未分类 on 05月-3-2008

            地址是:http://www.phpcup.cn/
            对PHP我基本没什么更高的追求,看上去php似乎已经无以复加,在web领域没有什么不能干的了。
            但是对小亮同学组织人开个php论坛支持新手的行为,还是表示支持。赞一个。
            我在这儿做了基础版版主,我这水平也就能糊弄糊弄新手:(
            欢迎大拿们去评点评点…


            Tag:
            相关文章


               
              May
              02
              Posted (xurenlu) in 未分类 on 05月-2-2008

              “立春一过,城市里还没有什么春天的迹象,但风真的就不一样了。”
              -<<立春>>

              《立春》的投资高达2000万元,其时代背景比《孔雀》晚了十多年。片中,蒋雯丽扮演一个自认为怀才不遇的女高音歌唱家,在一家音乐学院担任老师。这个有些自恋的老师经常梦想能被国外的乐团发掘,并跟随国外乐团到世界各地巡回演出。但这只是她个人的一个梦想而已,现实和梦想的巨大差异让她开始构筑一个属于自己的精神世界,并且沉迷于其中。

              看完全片,累。
              影片海报一张大大的裸照,吊足了人们的胃口,然而,全片却就是王彩玲给黄四宝做模特的这一场,算是补上了色这一节。其实,整场电影下来,一点儿不色。不过片中也有几段音效不适合儿童,一处是王彩玲在国家剧院外面的时候,我老觉得听到恐怖片的配乐,一直在想,是幻觉吗?我最近没看恐怖片啊。最后悟过来,原来高音歌唱家们在剧院里唱的声音传到场外,就是这调调儿啊,真像恐怖片。另一处,其实多次出现,就是经常在王彩玲的家里这听到隔壁美少妇的“哦。。。啊。。。。。啊”的叫床声,我开始也没反应过来这哪来的声音,呵呵。导演整这么一出,估计是为了验证美少妇“我老公每天都有要求”的口头禅吧。这么一来,电影也能搭上”很黄很暴力”的边了,票房肯定不会差了。
              一出场的王彩玲,天生一幅好嗓子,热爱艺术,但是小地方对此并不感冒,她却沉浸在自己的梦境里,一如以往去常去北京听歌剧,拿出积蓄上京买户口。当她演唱的时候,周边观众一下子全部散去,老天爷在此时下起不大不小的雪,她的内心冷到冰点。同病相怜的舞蹈老师受不了人们的冷眼,求她说要假借婚。我以为她一定会答应,因为这是一般小说的套路。然而电影中王彩玲没有答应,她说,你是人们喉咙中的一根骨头,我只是不甘于庸俗,人们总想除去你,而我撑不住的时候我可以妥协退于平庸。

              张瑶饰演的高贝贝找到王彩玲,她自称身患绝症,唯一的心愿就是可以参加全国歌手大赛并获奖。在北京求职多次碰壁已经让王彩玲深深失望,同时为了帮助高贝贝,王彩玲放弃了进京的梦想,将这笔金钱用来资助后者打通关系。却没想到,自己的好心面对的是一场精心策划的谎言。

              美少妇到处宣扬她的老公多么能挣钱,她们的婚姻是多么幸福,然而豪无征兆地,她的老公忽然之间卷走所有存款消失,美少妇找到王彩玲诉苦,说”我现在连你都不如了”,王彩玲一针见血地说:你跟我说这些,把我当朋友,只是因为我比你更不幸福”.
              王彩玲回家过了一个春节,在初一这个早上起床很早,听到母亲在院子里放炮竹,马上起来对母亲说,妈,给您拜年了。其实老人并不指望女儿给带多少东西回家,她们所要的,只是自己女儿嫁人,只是要自己女儿有一个平静但幸福的家庭。我一时想起了论语-里仁:

              子曰:父母之年不可不知也;一则以喜,一则以惧。

              孔子说,父母的生日,做子女的不能不明白。一来高兴,寿日,当庆贺。一来又担忧,父母的年齡大一岁,说明他们在人世的时间又短了一年,陪自己的时间又短了一年。所以,尽孝要趁早,不然,”子欲养而亲不在”,空留遗憾。
              北京的钱被骗了,歌唱家做不成了,梦彻底毁灭了。而美少妇邻居的遭遇又说明了男人不可靠(色戒说女人不可靠,投名状说兄弟不可靠,集结号说组织不可靠,这下男人不可靠也凑齐活了),但是生活还得继续。王彩玲这次彻彻底底地向生活妥协了,反正婚介所也不可靠,干脆下决心单身过日子,领养了一个唇裂的孤儿,在街上卖起了羊肉,后来生活还很富足,虽不能相夫,然教子颇有成效,也是一乐。后来,她医好了孩子的唇裂,带着孩子在天安门唱儿歌,对着这个让她无数次梦里向往的地方若有所思。
              影片结束,王彩玲身着华服,在国家大剧院在众多伴奏中高唱”我常把珠宝缀满了圣母的衣襟,把我的歌声献给上帝和天上灿烂的群星;在绝望的时刻,为何,为何,上帝啊,为何对我这样残酷无情?”,神圣而肃穆,终于潸然泪下。我看不懂,这是梦境呢,还是事实呢?其实我认为这是导演的祝福而已,一如片后“谨以此片献给王彩玲”的文字附注。做为观者,我知道,王彩玲已经寻到了幸福。
              祝愿王彩玲的路,不再在王小凡的身上重演。但这,又何其艰难。凡高之所以成为凡高。因为全世界几百年也才能出一个凡高。每个县城出凡高,每年都出凡高,那凡高又如何是凡高。王小凡名字带着凡字,但我敢说她基本也就没可能成为凡高了。我只是祈求,王小凡放弃她的理想的妥协过程能更…..更生活一些。


              Tag:
              相关文章


                 
                May
                01
                Posted (xurenlu) in Ruby on 05月-1-2008

                最近为ruby,ruby on rails的灵活和魔幻而着迷。爽。
                上上周一个同事给我们介绍了自然语言处理的一些知识,觉得很不错。事实上虽然是雅虎公司的一名工程师,但是因为我不是搜索/邮箱/平台研发这些部门,基本上没有接触到比较深一点的东西,也许对于这些部门来说很简单的东西,对于我来说还是很难以理解的。
                课后自己去找了些东西看了看,然后有这样一思路,可以用来构造一个垃圾站。
                基本思路是:
                1.首先我需要一个spider.这个spider由两个部分完成,第一部分是由一个feed管理程序来不停地从网上读rss回来,第二部分是常规spider,跟nutch什么的spider无异.
                2.第二部分是预处理。这一部分包括:纯文本化、去垃圾。
                3.第三部分是运算:分词,关键词提取,提取相关文章。
                4.热点呈现,网站部分。
                具体实现:
                rss 的spider要简单一些,但是根据抓回来的内容,也是很多质量不高的种子。比如新浪新闻的rss基本没有正文,而有些feedsky的种子后面跟着一个小尾巴(广告),需要处理。
                对于没有正文的,很简单,将之平均长度算出来,如果某个种子的平均长度都很短,就将这个种子丢弃。
                对于很多内容不咱的,但是广告链接一大堆的,也有办法:先纯文本化,一个文档就细化为一系列的段。html标签有的去掉了,有的换成空格了.这时将段按空格分组,如果没组长度都很短,即文章内容中若是大量充满着html标签,这样的多半是广告或是垃圾链接。
                比如这一段:

                1. 2006-09-11   charon 写道  我现在对这类动态语言的非本质实现抱很大的怀疑态度。 最近除了这个新闻以外,IronPyton(python的.net版本)1.0也发布了。但看了一下,感觉虽然不是特别差,也是差得可以。也许这是给那些熟悉.net同时又想找一个动态语言的人一个选择? 两个语法相同但是标准库有差异(jruby可能语法上也略有差异),支持库有重大差异的语言,还能算是一个语言吗? 当年不论出于什么原因,Sun对于MS污染java的行为举起了大棒,现在这几个开源社区的动态语言,却纷纷搞出这么些方言来,不好说阿。   IronPython和JRuby可能还是不太一样的。dotnet平台实际上提供了自己统一的dotnet fraemwork类库,所谓不同的编程语言支持,更像是一种语法糖衣而已。但是JRuby其实实现了大部分ruby自己的库,用JRuby并非仅仅用一个ruby语法而已,关键是ruby本身的方便的库和rails框架,至于Java库的支持,只是辅助了。  Sun对JRuby的支持表明了一种态度,这种态度是承认ruby在企业快速开发方面的优势,而对ruby提供更好的支持。而Microsoft支持的IronPython更像是用python语法写C#程序那种感觉,换汤不换药。     charon
                2.                  robbin     浏览: 1653543 次  性别:   来自: 上海      详细资料    搜索本博客        博客分类    全部博客 (119)    杂感 (38)    Java (27)    Ruby (31)    System (5)    JavaEye (19)      我的相册       游乌镇  共 33 张     其他分类    我的收藏  (19)   我的论坛帖子  (4506)   我的精华良好贴  (97)     最近加入圈子    JavaEye沙龙    广州JavaEyer饭局群    Ubuntu For Fun    JavaEye水源    英语学习      链接    javaeye      存档    2008-04  (2)   2008-03  (6)   2008-01  (7)   更多存档...      最新评论    Warp framework - 一个相 ... 
                3. 当然新的东西是可以尝试的,我 ... 吧?
                4.                   -- by dhxyu    总结一下大家对JavaEye网 ... 
                5.                   支持`~~
                6.                   -- by hgz123    关于JavaEye网站未来发展 ... 
                7. javaeye前途无量! 今天认真看了这篇文章,
                8.                   -- by ahkai    SAAS(软件即服务) 离我们 ... 
                9.                   呵呵,在中国,我不看好这种模式,对个人也许有用,但在企业领域,恐怕很难推广。如楼 ...
                10.                   -- by zlxym    以无法为有法,以无限为有 ... 
                11.                   呵呵,楼主还是单纯技术人员的创办思路。缺少营销、商业气味!这道也不是什么坏事,但 ...
                12.                   -- by cljhyjs      评论排行榜    Warp framework - 一个相当有前途的Java轻 ...    《太阳照常升起》观后感    关于JavaEye网站未来发展的思考    从分布式系统的角度看REST    Java已经过时了吗?                            [什么是RSS?]           
                13.           声明:JavaEye文章版权属于作者,受法律保护。没有作者书面许可不得转载。若作者同意转载,必须以超链接形式标明文章原始出处和作者。
                14.           &copy; 2003-2008 JavaEye.com.   All rights reserved. 上海炯耐计算机软件有限公司 [ 沪ICP备05023328号 ]

                这上面有的地方有很多空格,这一段就要去掉。当然可以再对段做分析,将一段中空格多的地方去掉。
                好了经过整理,现在得到了质量稍好一点的文本了。我们进行分析分词。分词,我是在一个叫hightman的开发者的作品的基础上包装了一个ruby库,原文地址是http://www.hightman.cn/bbs/viewthread.php?tid=321.Ruby是一门很好的胶水语言,但是性能较差,因此对性能要求高的部分我选择用c封装ruby模块。
                分好词了,我们再抽出一些实词,比如名词(联想集团),动词(上市,IPO,收购),其实主要思路是跟IT、商业有关的(q我们事先整理一张表,将这些词放进来),将无意义的词(很好,缓慢,深深地…)去掉,对频度,权值排个序,取出前20个,
                记为主题词。
                现在这个也做好了以后我们将文本、主题词入库。再对每一篇文本计算相似文章。这个,我开始是打算就将关键词和文章都存入数据库,然后按照文章之间主题词的重合度来算,但是后来发现文章数越多这个计算就越复杂,并且运算量随文章数的增长而增长,而且增长更快(指数的而不是线性的增长).
                后来想了个办法,我正好也需要一个全文索引,于是利用这个全文检索来完成。全文检索当然不是自己做,现成的有不少系统。用一篇文章的关键词去搜索,搜索结果中的文章就是这篇文章的相似文章。
                至于热点事件挖掘,现在还不知道如何去实现一个demo.可能首先要依赖分词引擎的新词发现比较准确吧。
                搞定以后,有一个问题,我的抓取和分析模块都在我的台式机上完成,但是我需要把数据传输到远程主机上。这点到后面也就用了不到100行代码搞定了(我自己手工写的代码,在40行以内!).因为,一个rails2.0的组件叫activerecord,还有一个叫activeResource,而rails的scaffold可以帮我生成rest协议的相关代码。需要我手工写的代码是:

                1. for item in @items
                2.                     post=Post2s.new
                3.                     post.title=item.title
                4.                     post.md5=item.md5
                5.                     post.body=item.description
                6.                     post.rss_pub_date=item.pubDate
                7.                     post.service_id="blog"
                8.                     ....
                9.                     post.save
                10.             end

                简单明了,谁都看得懂.这是一段运行在我的台式机上的代码,但是他保存的时候,却与远程的主机交互将数据保存在了服务器上,走的是HTTP通道,数据交换格式是HTML/XML.
                Ruby 果然很适合用来替代很多难度不大但是需要大段废话的场合。
                下一篇就写如何搞中文分词的ruby包装。


                Tag:
                相关文章


                   
                  Apr
                  27
                  Posted (xurenlu) in IT看板, 杂谈 on 04月-27-2008

                  新浪的首页标题是:新浪首页
                  网易的首页标题是:网易
                  搜狐的首页标题是:中国最大的门户网站
                  百度的首页标题是:百度一下,你就知道
                  bokee.com的首页标题是:博客网-全球第一中文博客网站,中国第一博客生活社区,让每个人都有一个网上的家
                  yahoo.com.cn的首页标题是:中国雅虎首页
                  yahoo.cn的首页标题是:360度,雅虎全能搜
                  Tom的首页标题是:TOM.com
                  淘宝 的首页标题是:淘宝网
                  QQ.com的首页是:腾讯首页
                  Google.cn的首页标题是:Google
                  从中间可以发现:
                  1.搜狐很不靠谱。最大的门户是搜狐吗?有多少人同意?
                  2.bokee.com的更不靠谱。又是全球第一又是中国第一。真的吗?
                  3.百度很清楚自己的定位。也许百度把门户,游戏,电子商务什么都做起来了,会写”百度,无所不在”?
                  4.Google.cn对自己的中文名确实很不满意,或者是自己用谷歌这个名字做过的事没有自信.
                  5.剩下的呢?那些就简单写上网站名字的,自己没有认识到自己的定位吗?


                  Tag:
                  相关文章


                     
                    Apr
                    19
                    Posted (xurenlu) in 未分类 on 04月-19-2008

                    话说月初偶们公司去华山玩。。。。
                    夜间在某酒店住下…
                    只要住的是单身男的房间,都接到了午夜凶铃:”先生,需要按摩吗?”,,,,”先生,需要服务吗”…
                    王GG是超有型啊,接电话时正在找开水,直接说“啊 ,正好,给我送壶开水上来吧~~~”


                    Tag:
                    相关文章


                       
                      Apr
                      18
                      Posted (xurenlu) in 未分类 on 04月-18-2008

                      过程记录:
                      1.autoscan
                      2.修改configure.scan,重命名为configure.in,编辑Makefile.am
                      3.运行aclocal
                      4.autoconf
                      5.automake –add-missing
                      6.好了,你可以configure && make && make install了。

                      实例记录:
                      1. mkdir h2
                      2.cd h2
                      3. vim h2.c,内容如下:

                      1. #include <stdio.h>
                      2. int main()
                      3. {
                      4.         printf("hi, This is jerry");
                      5.         return 0;
                      6. }

                      4.运行autoscan,将生成autoscan.log和configure.scan
                      5.将configure.scan命名为configure.in,并修改:我这里内容如下:

                      1. #                                               -*- Autoconf -*-
                      2. # Process this file with autoconf to produce a configure script.
                      3.  
                      4. AC_PREREQ(2.61)
                      5. AC_INIT(h2, 1.0,xurenlu@gmail.com)
                      6. AC_CONFIG_SRCDIR([h2.c])
                      7. AC_CONFIG_HEADER([config.h])
                      8. AM_INIT_AUTOMAKE(h2,1.0)
                      9.  
                      10. # Checks for programs.
                      11. AC_PROG_CC
                      12.  
                      13. # Checks for libraries.
                      14.  
                      15. # Checks for header files.
                      16.  
                      17. # Checks for typedefs, structures, and compiler characteristics.
                      18.  
                      19. # Checks for library functions.
                      20. AC_CONFIG_FILES(Makefile)
                      21. AC_OUTPUT

                      与autoscan生成的文件相比,我加了这两行:

                      1. AM_INIT_AUTOMAKE(h2,1.0)
                      2.  
                      3. AC_CONFIG_FILES(Makefile)

                      同时改了这样几行:

                      1. AC_INIT(h2, 1.0,xurenlu@gmail.com)

                      现在我们编辑Makefile.am:
                      内容如下:

                      1. AUTOMAKE_OPTIONS=foreign
                      2. bin_PROGRAMS=h2
                      3. h2_SOURCES=h2.c

                      接下来运行aclocal
                      此时会生成aclocal.m4和autom4te.cache。
                      我们运行:autoconf生成configure文件.
                      再运行autohead 生成config.h.in
                      最后运行automake –add-missing 就能得到Makefile.in了
                      有了这个,就可以configure了。
                      在网上搜到这样一个图:

                      image002.gif


                      Tag:
                      相关文章


                         
                        Apr
                        18
                        Posted (xurenlu) in 杂谈 on 04月-18-2008

                        景爷的脚崴了,发了封电子邮件请假。
                        至于怎么受伤了,景爷怎么都不说。于是,team的各位色狼们决定自由发挥,在回信中展开自由想象。
                        周一,这个版本是:
                        某夜,月黑风高。景爷悄悄趴在隔壁某MM的窗台上偷看人家洗澡,这时忽听一声尖叫,接着有人开门冲出来。景徐仓皇而逃,混乱中把脚伤了.

                        周三,这个版本是:
                        是夜,景爷骗来MM,浪漫的烛光夜宴进行到一半,景爷露出凶悍面孔,要求XXX.MM不从,景爷一怒,将MM扔上床,刚要扑上去,MM径直一脚,景爷跌下床去,发现脚跌伤了.

                        周五,这个版本是:
                        某日,景爷与某某某正在OOXX,这时某某某的老公在外面敲门,说忘带工卡了!景爷情急之下打开窗户跳了下去,将脚摔了.

                        周日,这个版本是:
                        同周五版本。唯不同的是,景爷情急之下,先是看床底下,发现床下已经躲了一个了,再打开衣柜,发现躲了俩!打开冰箱,发现有一个已经冻傻了!最后只好从窗户跳了下去…

                        展望版:
                        三月之后,市面上出一畅销书,书名曰”景爷自揭秘:我的脚是怎么跌伤的”,曙名:保尔-牙虎中国有限公司,成为第一本某公司全体php工程师创作的小说…
                        半年之后,由于该书以最宽松的MIT style lisence方式发行,市面上发行了各种变种:
                        <<疯狂医生之手把手教崴脚>>
                        <<24小时系列之:24小时教会你崴脚>>
                        <<红宝书系列:崴脚宝典>>
                        <<崴脚走遍美国>>
                        <<景爷教你来崴脚>>
                        ….


                        Tag:
                        相关文章