当前位置:首页 » 服务器技术
开发技术指南» 文章正文
    引言: 传统的全文检索都是基于数据库的,Sql Server Oracle mysql 都提供全文检索,但这些比较大,不适合单机或小应用程序(Mysql4.0以上可以作为整合开发),Mysql也不支持中文。
 

 

 ·oracle常用問題1000問(之一)     »显示摘要«
    摘要:大家在應用oracle的時候可能會遇到很多看起來不難的問題, 特別對新手來說, 今天我簡單把它總結一下, 發布給大家, 希望對大家有幫助! 和大家一起探討, 共同進步!     對oracle高手來說是不用看的. 1. oracle安裝完成后的初始口令?   internal/oracle   sys/change_on_install   system/manager   scott/tiger   sysman/oem_temp 2. oracle9i......
 ·oracle常用傻瓜問題1000問(之三)    »显示摘要«
    摘要:88. chr()的反函數是?   ascii()   select char(65) from dual;    select ascii(´a´) from dual; 89. 字符串的連接   select concat(col1,col2) from table ;   select col1||col2 from table ; 90. 怎么把select出来的结果导到一个文本文件中?   sql>spool c:\......


一个简单的中文分词

 clucene - a c++ search engine  http://sourceforge.net/projects/clucene/

【相关文章:《The C Programming L

    传统的全文检索都是基于数据库的,sql server  oracle mysql 都提供全文检索,但这些比较大,不适合单机或小应用程序(mysql4.0以上可以作为整合开发),mysql也不支持中文。 【扩展阅读:《c++ primer》读书笔记10

【扩展信息:《The C Programming L

    后来得知apache有一个开源的全文检索引擎,而且应用比较广,lucene是apache旗下的java版的全文检索引擎,性能相当出色,可惜是java版的,我一直在想有没有c或c++版的,终于有一天在http://sourceforge.net 淘到一个好东东,clucene!clucene是c++版的全文检索引擎,完全移植于lucene,不过对中文支持不好,而且有很多的内存泄露,:p

    cluene不支持中文的分词,我就写了一个简单的中文分词,大概思路就是传统的二分词法,因为中文的分词不像英文这类的语言,一遇到空格或标点就认为是一个词的结束,所以就采用二分词法,二分词法就是例如:北京市,就切成 北京 , 京市。这样一来词库就会很大,不过是一种简单的分词方法(过段时间我再介绍我对中文分词的一些思路) ,当然了,在检索时就不能输入“北京市”了,这样就检索不到,只要输入:“+北京 +京市”,就可以检索到北京市了,虽然精度不是很高,但适合简单的分词,而且不怕会漏掉某些单词。

    我照着clucene的分词模块,做了一个chinesetokenizer,这个模块就负责分词工作了,我把主要的函数写出来

    chinesetokenizer.cpp:

 token* chinesetokenizer::next() {

 

  while(!rd.eos())

  {

   char_t ch = rd.getnext();

  

  

   if( isspace((char_t)ch)!=0 )

   {

    continue;

   }

   // read for alpha-nums and chinese

   if( isalnum((char_t)ch)!=0 )

   {

    start = rd.column();

    return readchinese(ch);  

   }

  }


...   下一页
    摘要: 此文作为如何才能构建一个敏捷的开发团队,希望和大家一块交流 的一个小结,希望大家能够提供更多的宝贵意见。 总结如下: 1。敏捷的团队建设,确实是一个渐进的过程。好像没有那个团体是一下子就自动产生,大家只有在比较长期的磨合中,才能达到某种默契。 2。在磨合的过程中,有一个良好的习惯养成,同样也很重要。在这方面schelemiel如斯说:“敏捷团队最要紧的是每个成员的习惯。把持续集成、测试驱动、重构、结对、短会议、每周40小时……这些习惯培养好了之后,团队的......
» 本期热门文章:

©2000-2007 All Rights Reserved. 最佳浏览:1024X768 MSIE