0-家人
0-新酷应用
startups
友情链接
同事
日历
2010 九月 一 二 三 四 五 六 日 « 八 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 -
最近文章
搜索
近期评论
- Think In LAMP Blog » Blog Archive » PHP每月通讯(2010年9月) 在 PHP中的一些language construct 上的评论
- Think In LAMP Blog » Blog Archive » PHP每月通讯(2010年9月) 在 稍显寒酸的一个PHP框架:supermin 上的评论
- Tokyo Cabinet乱贴(未整理,仅供自己做笔记) « LAMP架构网站开发指南|Kenneth@Beijing2010 在 Tokyo Cabinet:另一个DBM实现 上的评论
- Anders 在 cloudapi 悄然上线,欢迎各方人士拍砖 上的评论
- key 在 新博开张 上的评论
- 怎么样 在 新博开张 上的评论
- timberland boots uk 在 新博开张 上的评论
- 小宝 在 稍显寒酸的一个PHP框架:supermin 上的评论
- fengfeng 在 稍显寒酸的一个PHP框架:supermin 上的评论
- deli 在 好色的程序员:怎么加上彩色显示 上的评论
分类目录归档:未分类
我倒腾过的小项目
有好几个都没有写明是何种license,因为用的人少~~~ acfilter: 项目主页:http://github.com/xurenlu/acfilter 是一个PHP扩展,您需要设定一个词库,然后检测任何一篇文章看它包含了词库中的哪些词. 应用场景: 禁词屏蔽;SEO伪原创;当词库足够大时,可以成为一个简单的分词工具;准备一系列分类的词库,可以实现文本分类和关键词提取; supermini: 项目主页:http://github.com/xurenlu/supermini 简称SM,是一个极小的PHP框架,帮助你偷懒,不到1000行代码,帮你完成自动建数据库,简单的scaffold功能,以及一个简单极致的mvc实现. wpra: 项目主页:http://github.com/xurenlu/wpra 是一个wordpress扩展;利用了http://codeany.com/提供的API来完成相关文章的功能.提升SEO效果. flare-manager 项目主页:http://github.com/xurenlu/flare-manger/ 这是web界面的flare的管理器,列在flare的官方网站上.你可以将flare理解为一个支持持久化的memcache实现. python-scws 项目主页:http://github.com/xurenlu/python-scws python-scws是scws的Python扩展.scws是一个中文分词实现. slowphp 项目主页是:http://github.com/xurenlu/slowphp 是一个PHP扩展,用来实现记录php中执行特别费时的脚本地址的工具.可以设定为执行时间超过一定值时触发记录动作,也可以是有一定的概率触发,也可以是当锁文件存在时触发. PHPPOD: 项目主页是:http://github.com/xurenlu/phppod 是一个dnspod的客户端,与其他客户端不同的时,它不是一个windows下的有GUI界面的客户端,而是PHP实现的,在console下执行,适于在linux下使用,可以和拨号程序集成,也可以在crontab中调用. hyer: 项目主页是:http://githbu.com/xurenlu/hyer/ 是一个python写的爬虫库,已经停止更新. A mc_list patch for tokyo tyrant 项目主页是:http://github.com/xurenlu/mc_list_patch_4_tokyotyrant 将tokyotyrant做了hack,加上了对list命令的支持.客户端也需要做改动,我已经提供了php版的修改. sshpass: 项目主页是:http://github.com/xurenlu/sshpass 是一个帮助登录ssh的小工具.假设您要登录的ssh的密码是123456,可以这样登录: sshpass -p … 继续阅读
新博开张
嗯,其实开张有一阵鸟,基本是相当八卦地: 一米六二的树洞 我是徐怡然 本文由蝌蚪安尼友情赞助.相关文章写博客,也要长尾+马太效应+(人际、口碑营销):基于cloudapi.info的wordpress 相关文章插件IT世界网CEO秦刚:门外汉玩转IT专业网站欺诈,又是欺诈很想说….旧诗杂烩吴莹莹…狂汗的一个问题我快要勃不起来了2.0时代的推广思路
PHP中的一些language construct
先来段定义: A language construct is a syntactically allowable part of a program that may be formed from one or more lexical tokens in accordance with the rules of a programming language. The term Language Constructs is often used as a … 继续阅读
rails 每周乱弹:session有效期
默认情况下,Rails是将session信息存放在Cookie中的,但是这个Cookie的过期设置是默认的,浏览器一关闭就自动过期了.我想设置了长时间记住用户,比如,一个月内不需要再次登陆,需要这么做: 1.将Rails升级到新版,2.3.*,我的是2.3.8了;注意这是必须的,因为我之前也是按照一些资料的说明做了第二步,但是不管用,后来发现是rails的版本问题; 2.在config/environment.rb里添加: config.action_controller.session = { :session_key => ‘_good_session’, :secret=> … 继续阅读
rails 每周乱弹:用ckeditor为表单添加所见即所得功能
我最近在搞codeany.com,用的rails开发,其中一些地方需要用到所见即所得编辑器,不想自己写了,上网搜了搜,找到了一个叫做ckeditor的rails插件,主页是:http://github.com/galetahub/rails-ckeditor; 安装方法: ./script/plugin install git://github.com/galetahub/rails-ckeditor.git 或者用是 ./script/plugin install http://github.com/galetahub/rails-ckeditor.git git协议能快一点点;这种安装需要你有git;另外你下载下来安装,下载地址是:http://github.com/galetahub/rails-ckeditor/tarball/master. 安装好以后设置数据库和配置文件; rake ckeditor:install rake ckeditor:config 现在就好了,使用很简单,比如以前的代码是: <%form_for(….) do |f|%> <%=f.text_area :content,:rows=>5,:cols=>60%> …<%end%> <%form_for(….) do |f|%> <%= f.cktext_area :content, :swf_params=>{:assetable_type=>’User’, :assetable_id=>session[:uid]} %> …<%end%> 并在页头加上: <%= javascript_include_tag :ckeditor %> 即可;ckeditor和jquery等良好共存,并无问题. 下面说一下文件上传: ckeditor上是带有上传图片并插入到所见即所得编辑器中去的功能,我是用的paperclip来实现,ckeditor对这个有支持,启用很简单,从ckeditor的示例目录中将几个model文件拷过来: … 继续阅读
rails 每周乱弹:解决RMagick版本问题
在rails中生成验证码时,报错了:This installation of RMagick was configured with ImageMagick 6.5.5 but ImageMagick 6.5.7-8 is in use. 我的解决办法是: 修改/usr/lib/ruby/1.8/RMagick.rb,在require “RMagick.so”之前加上: RMAGICK_BYPASS_VERSION_TEST=true 本文由蝌蚪安尼友情赞助.相关文章偶的像册写完了发布我的bbs 挺简单的.VirtualBox 的一些错误完整解决vim不能记住上次的位置的问题rlucene 0.13释出….txtdb2.0的新功能关于svn的小技巧和一个Bug文本挖掘,构造垃圾站[一]慧聪是如何开展网络营销的:::::cloudapi 悄然上线,欢迎各方人士拍砖
CloudAPI 远程接口服务使用图文教程
Codeany的介绍: 要使用这个服务,第一步,必须先注册帐户: 接下来用刚注册的帐号登陆: 登陆后来到控制台,或是直接点击下图中的”立即开始’链接 点击后会来到所有API的列表页: 点击图中”创建使用这个API的库,填写如下表单: 注意,数据库名字应为字母打头,只能由字母和数字组成(我正在考虑放开这个限制),并且不得重名.创建后,来到控制台,查看您刚才创建的库的密钥: 这串字符串您需要保存好了,在实际应用中就是靠这个串来确认您的身份的. 现在开始编写程序,实地使用一下了: 注意这个API地址: http://www.cloudapi.info/api/proxy.php?code=8Gk1N0QjoUUEgPI6Hzj8tNVdcJ8quDWf 后面的code就是您前面创建数据库里生成的密钥.另外,这个程序是在phprpc的基础上跑的,phprpc从这里下载: http://www.phprpc.net/zh_CN/download/ 有了PHPRPC,我就不用开发asp,jsp,perl,python等各种客户端了,全都已经有了. 运行一下,看看效果: 再试试正文抽取的接口:代码: 再看看执行效果: 好了,现在去Cloudapi 上搞个帐号试试吧,有问题欢迎反馈,gtalk:xurenlu@gmail.com 本文由蝌蚪安尼友情赞助.相关文章cloudapi 悄然上线,欢迎各方人士拍砖用fastCGI协议进行RPC调用cloudapi.info 预谋提供的下一个云接口:垃圾评论判别基于cloudapi.info的wordpress 相关文章插件Spread 简介(试译)links for 2007-01-10把我的本本上的fedora升级了一下解密一份过时的商业计划书,个人认为里面的理念还有用InSphere与发掘弱链接:::::看过”Google 发现的十大真理 “和高春辉参加站长大会的感想
关于新闻网页正文抽取的一些思路
A:估计很多人只想要简单快速地实现正文抽取,我特地将PHP版本的调用示例给了出来,并打包提供下载:demo.tar; B:希望自行实现的朋友可以顺这两个思路来实现: i):链接密度算法:简单点说,就是统计每一个HTML子节点的链接密度,然后找出链接密度最小的那个点;对于中文新闻网页,这个密度值通常是0.03到0.05这个范围内,个别站点可能超出这个范围;当然你可以综合一下文本长度等等因素来考虑;网上有位达人写了一份python版的程序,可以考虑借鉴一下,源程序在这里:textextract.tar,调用第一个函数即可;使用时,如果返回的内容比实际的小,说明要将密度值调大一点,反之要调小一点; 附注:链接密度:处于链接中的文字中的长度除以整段文字的长度; ii):HTML Tag打分算法:只能提供一些零散的要素点: (不介绍正则模板类方法了,这个就太没意思了) 首先很多节点可以直接去掉,比如script,style,from,iframe,object或embed,这些多半不是正文,直接干掉;注释也去掉,它们带入处理,只会浪费内存; 再干掉很多HTML属性,像width,height,cellspacing,cellpadding,style,class这些都直接干掉; 一些节点可以保留文本内容,把HTML节点去掉;比如Span,Font,b 标记节点; 在主流的新闻网页(我们暂且把这个集合定义为:news.sina.com.cn,news.sohu.com,news.cn.yahoo.com,news.qq.com,news.163.com)中,一般来说可能是正文内容的就是DIV这两个标签了,DIV的可能性更大一些;正文内容往往放在一个DIV标记中;而且这些网站有着严格的编辑管理规范,一般都会规定,用 来表现段落,也存在可能某些编辑队伍要求用两个 来表现新段落的,这样,我们先将两个BR换成P,然后查找拥有多个段落的DIV节点; “枝”节点和”页”节点的分类:通常来说,div,p,table,h1,h2…h6,ul,li,ol,form这些都可以为是枝干;而 A,img,input,button这些标签我们都视做为”叶子”节点;这里有很多小规则可以应用,比如网页的正文不会包括在一个A当中:哪个CMS的模板会把大段正文放在一个A标记中呢?同样地,像input,button这些一般也不会出现在正文中. 目标链接超长的的,一般是广告链接:像http://sina.allyes.com/main/adfclick?db=sina&bid=147826,186360,191333&cid=0,0,0&sid=179037&advid=3406&camid=25434&show=ignore&url=http://tech.sina.com.cn/iPhone/和 http://sohu.ad-plus.cn/event.ng/Type=click&FlightID=201006&TargetID=sohu&Values=fe5172f2,7a850001,a3827680,0fba7427&AdID=66817 这些,都是广告链接;带googleadsence,doubleclick,allyes等链接,也是广告,也排除掉; 去除HTML后,整段文字无标点的,一般是导航或是相关链接什么的;比如sohu的页面上某一段抽出正文后是: “搜狐首页-新闻-体育-S-娱乐-V-财经-IT-汽车-房产-家居-女人-视频-播客-微博-邮件-博客-BBS-我说两句-搜狗” 这个,没有逗号也没有句号,多半是导航;这个导航还可以按照每个链接的平均文字长度来算,平均每个链接的长度在2~4之间的,不用想了,是导航链接,挨着一排链接平均长度在10-20左右的,多半是相关文章了; 另外还有一些其他的小伎俩:比如说,门户网站的广告发布,流程很复杂的,所以一般情况下,广告链接所用的域名都是固定的,比如可能就是sina.allyes.com,或是sohu.doubleclick.com(这两个域名我瞎写的,真实情况下可能和这差不太多);广告位置一般不太换(收了钱的,也不能随便换的);另外到正文的链接一般是本域名的完整URL,不会是相对URL,也一般不会出现其他站的链接,如果有,多半是收费文字链(页脚可能会有政府机关的链接,不过相信一上来你就有办法判断出哪个是尾巴了); 综合一下两种方法,要写出一个针对主流的,常见的新闻网页的抽取程序,那就很好办了. 至于标题提取,这个就太简单了,随便拿篇新闻做例子:比如这篇:http://news.sohu.com/20100706/n273301825.shtml,查看一下源代码,其中有: 真是太好做了,一般新闻网站的title属性就是{标题}-{网站名}{频道}的形式,要处理非常简单. Ok,放出你的爬虫前,请先确认有相关新闻资质;注意,本文绝不鼓励侵权转载,嗯;本文只是介绍一下大致实现信息结构化的一个思路而已.做垃圾站真的是一个很没前途的职业的:( 本文由蝌蚪安尼友情赞助.相关文章文本挖掘,构造垃圾站[一]选择最佳关键词之10个技巧刨根问底学Blog(很不错的一篇入门文章)Alexa 世界网站排名研究(上)最nb的个人网站 中国个人网站研究之(一)推荐一个相当不错的分词程序杂事记网站推广方法–资源合作从三个方面提高网站的链接广泛度对Google更新过程的最终解释
新闻站抓取神器:正文抽取接口
经过很久很久的琢磨,一米六二开发了正文抽取的神器(虽然这么说有点夸张),针对主流新闻类网站的正文抓取,不再需要做模板或是特别针对某个站点的设置,统统都能正确返回正文!绝对是神器~ 继续阅读
寻找网页制作兼职人员
本人需要一名兼职网页制作人员,主要工作是设计简单的页面,需要会用Photoshop,熟悉HTML,需要有充裕的时间,比较适合时间宽裕,有一定经验的在校学生,具体项目和薪酬面议。 联系方式见这里. 本文由蝌蚪安尼友情赞助.相关文章选择最佳关键词之10个技巧杨致远和雅虎的故事刨根问底学Blog(很不错的一篇入门文章)今日计划辞职中。。。一周年杯子极度缺钱中…看过”Google 发现的十大真理 “和高春辉参加站长大会的感想从三个方面提高网站的链接广泛度开源项目寻求协助: