drupal 6已经推出许久,很长时间没有精力为开源社区做点什么。感觉中文搜索一直是困扰drupal的问题,籍着此次drupal 6.1升级的机会,将中文分词模块按照原来的理想做了有史以来最大的一次改进,相信改进的内容还是能让人振奋一下:
- 终于实现了预索引的分词字典文件,使用B+ TreeB-Tree算法组织,可以快速进行基于文件的查找。获得的好处有:现在字典文件可以不再载入内存,使用B+树B-Tree字典时基本不消耗内存,这样可以采用巨型字典,也可以避免大家的php内存超限制。
- 提供了B+树B-Tree搜索用的简体简体/繁体两用中文巨型字典,本人专门生成的,准确性大大提高。
- 优化了算法,现在匹配循环比原来至少少三分之一。
- 提供了正向最小化和逆向最小化两种新的匹配算法,相对最大化匹配算法,其匹配循环可以减少一半以上,而结果也在可接受的范围。
- 提供类搜索的词长度选项,这个对性能有一定的影响,需要大家测试下看多少最为合理,因为目前提供的词库最长只有四个字,因此也只有2,3,4的长度选项才有意义。因为诗词的关系,今后也许会提供最长7个字的词库.
- 修正了原来程序中的分词错误,现在对中英文数字混合字符串处理的正确率大大提高了。
结合上面这些改进,性能至少超过原来的十倍,内存消耗从巨大降到很小,CPU占用率也很低(这些都基于我的VPS,我是lighttpd,大家可以提供反馈,看看你们的情况)。 使用时请关闭搜索设置里的“简单中日韩处理”。
目前还没有提交到drupal的cvs,大家先用我自己的下载吧。目前也不提供DP6.1版本下的demo,大家只好自己装上试试咯。
下载:csplitter for 6.x
详情和下载请到drupal官方网站: Chinese Word Splitter(中文分词)项目
这个一定要顶!!!
这个一定要顶!!!!
http://universalsoft.org (环球软件,专注drupal开发)
======================================
http://universalsoft.org (环球软件, 专注drupal开发)
http://aymoo.cn (blog)
zealy一出,谁与争锋,
zealy一出,谁与争锋,zealyzealy,必出精品!
----------------------------
你知道什么是蓁眛吗?
无框画,美国主机,无框画批发,美国虚拟主机
好像不用设置就能使用了.
好像不用设置就能使用了. 和原来的搜索设置不知道会冲突不.
上网提速入口
超赞,终于有看到zealy
超赞,终于有看到zealy大大了!
--------------------------------------------------------
Cartson.com
是啊,又好一段时间
是啊,又好一段时间没有上drupalchina,有时候路过,也只是匆匆一瞥。主要是近来事情比较多,个人精力有限,有心多为开源社区做贡献,却又必须专注于其他事情,只好是能做一点儿是一点儿了
=======================
关注世界,发现中国。博客,与互联网络共存。
博客基地 - 菠萝菠萝蜜
http://www.blogme.cn
=======================
关注世界,发现中国。博客,与互联网络共存。
博客基地 - 菠萝菠萝蜜
http://www.blogme.cn
支持支持~虽然还没知
支持支持~虽然还没知道是什么东东。。
好东西..下一个先.. 汗
好东西..下一个先..
汗,为啥不提交到drupal project去呢..
---------------------------------------------------
http://Evance.name
布拉格公园
好久没弄CVS,现在没
好久没弄CVS,现在没个环境好用,先扔出来大家看看先
=======================
关注世界,发现中国。博客,与互联网络共存。
博客基地 - 菠萝菠萝蜜
http://www.blogme.cn
=======================
关注世界,发现中国。博客,与互联网络共存。
博客基地 - 菠萝菠萝蜜
http://www.blogme.cn
是字典分类功能吗?
是字典分类功能吗?
---------------------------------------------------------------------------
女人减肥网-->我要爱减肥
悦己白领网-Drupal用户联盟-drupal在线手册-Drupal招聘-DrupalQQ2群:66285810
强烈顶,多谢zealy
强烈顶,多谢zealy
不错哈哈,B+树,我在
不错哈哈,B+树,我在考研的时候也很认真地研究了,以后有机会再把它拿起来
真的那么强悍?
真的那么强悍?十倍?
alexa check
A great alexa rating tool
目前几种缓存方式的
目前几种缓存方式的代码还在模块中,并且可以选择,你可以试试,如果有一些数据量就可以在Cron运行生成搜索索引时看到几种方式之间的巨大差异,B-树十倍性能不夸张哦
=======================
关注世界,发现中国。博客,与互联网络共存。
博客基地 - 菠萝菠萝蜜
http://www.blogme.cn
=======================
关注世界,发现中国。博客,与互联网络共存。
博客基地 - 菠萝菠萝蜜
http://www.blogme.cn
先学学再说 =============
先学学再说
==============a scratch of pen of jason==================
www.5iphp.com,我的drupal站点
www.5iphp.com 关于drupal学习、drupal经验、drupal教程的网站
谢谢zealy老师的贡献,
谢谢zealy老师的贡献,这个模块用起来很好。因为没有看到中文的po文件,就班门弄斧做了个。评论不能发附件,我一起放在另一个关于汉化po文件分享的帖子里面了:http://drupalchina.org/node/4963,如果不合适或错误的地方,请zealy老师指正。
实习站:http://www.werkflower.com/