再度发力:中文分词模块强力更新(支持Dp6.1)

由 zealy 于 周二, 2008-04-08 17:05 提交。

drupal 6已经推出许久,很长时间没有精力为开源社区做点什么。感觉中文搜索一直是困扰drupal的问题,籍着此次drupal 6.1升级的机会,将中文分词模块按照原来的理想做了有史以来最大的一次改进,相信改进的内容还是能让人振奋一下:

  1. 终于实现了预索引的分词字典文件,使用B+ TreeB-Tree算法组织,可以快速进行基于文件的查找。获得的好处有:现在字典文件可以不再载入内存,使用B+树B-Tree字典时基本不消耗内存,这样可以采用巨型字典,也可以避免大家的php内存超限制。

  2. 提供了B+树B-Tree搜索用的简体简体/繁体两用中文巨型字典,本人专门生成的,准确性大大提高。

  3. 优化了算法,现在匹配循环比原来至少少三分之一。

  4. 提供了正向最小化和逆向最小化两种新的匹配算法,相对最大化匹配算法,其匹配循环可以减少一半以上,而结果也在可接受的范围。

  5. 提供类搜索的词长度选项,这个对性能有一定的影响,需要大家测试下看多少最为合理,因为目前提供的词库最长只有四个字,因此也只有2,3,4的长度选项才有意义。因为诗词的关系,今后也许会提供最长7个字的词库.

  6. 修正了原来程序中的分词错误,现在对中英文数字混合字符串处理的正确率大大提高了。

结合上面这些改进,性能至少超过原来的十倍,内存消耗从巨大降到很小,CPU占用率也很低(这些都基于我的VPS,我是lighttpd,大家可以提供反馈,看看你们的情况)。 使用时请关闭搜索设置里的“简单中日韩处理”

目前还没有提交到drupal的cvs,大家先用我自己的下载吧。目前也不提供DP6.1版本下的demo,大家只好自己装上试试咯。

下载:csplitter for 6.x

详情和下载请到drupal官方网站: Chinese Word Splitter(中文分词)项目

这个一定要顶!!!

这个一定要顶!!!!

http://universalsoft.org (环球软件,专注drupal开发)

zealy一出,谁与争锋,

zealy一出,谁与争锋,zealyzealy,必出精品!
----------------------------
你知道什么是蓁眛吗?

超赞,终于有看到zealy

超赞,终于有看到zealy大大了!

是啊,又好一段时间

是啊,又好一段时间没有上drupalchina,有时候路过,也只是匆匆一瞥。主要是近来事情比较多,个人精力有限,有心多为开源社区做贡献,却又必须专注于其他事情,只好是能做一点儿是一点儿了
=======================
关注世界,发现中国。博客,与互联网络共存。
博客基地 - 菠萝菠萝蜜
http://www.blogme.cn

支持支持~虽然还没知

支持支持~虽然还没知道是什么东东。。

好东西..下一个先.. 汗

好东西..下一个先..
汗,为啥不提交到drupal project去呢..

---------------------------------------------------
http://Evance.name

好久没弄CVS,现在没

好久没弄CVS,现在没个环境好用,先扔出来大家看看先
=======================
关注世界,发现中国。博客,与互联网络共存。
博客基地 - 菠萝菠萝蜜
http://www.blogme.cn

是字典分类功能吗?

是字典分类功能吗?

---------------------------------------------------------------------------
女人减肥网-->我要爱减肥

强烈顶,多谢zealy

强烈顶,多谢zealy

不错哈哈,B+树,我在

不错哈哈,B+树,我在考研的时候也很认真地研究了,以后有机会再把它拿起来

真的那么强悍?

真的那么强悍?十倍?

alexa check

目前几种缓存方式的

目前几种缓存方式的代码还在模块中,并且可以选择,你可以试试,如果有一些数据量就可以在Cron运行生成搜索索引时看到几种方式之间的巨大差异,B-树十倍性能不夸张哦
=======================
关注世界,发现中国。博客,与互联网络共存。
博客基地 - 菠萝菠萝蜜
http://www.blogme.cn

先学学再说 =============

先学学再说
==============a scratch of pen of jason==================
www.5iphp.com,我的drupal站点