摘要: NLuke是参照Luke(lukeall)的功能开发的Lucene索引管理工具,是用C#开发的基于.Net Framework运行的程序。  阅读全文
posted @ 2008-09-23 16:30 Birdshover 阅读(1960) | 评论 (24)编辑
posted @ 2008-08-26 23:20 Birdshover 阅读(2759) | 评论 (16)编辑
     摘要: 在使用Lucene的过程中,对Lucene的工作方式产生了越来越浓厚的兴趣。于是尝试阅读其中所有的类,整理其内部结构关系,以期能理解Lucene。  阅读全文
posted @ 2008-08-07 22:19 Birdshover 阅读(3130) | 评论 (2)编辑
     摘要: 首先,你要相信网络是不安全的,TCP协议也是不安全的。HTTP访问是基于TCP协议来完成的,其能够被攻击是一定的。 跨站脚本攻击一直是Web上常见的手段之一,攻击一般是劫持用户会话,拿到私有的钥匙。如何劫持这个会话呢?   阅读全文
posted @ 2009-04-21 17:22 Birdshover 阅读(2085) | 评论 (14)编辑
     摘要: 最近在开发flash media server 应用。 flash media server 加客户端flash应用中,客户端是可以设置为默认该域名下的flash都可以调用麦克风和摄像头的。这就造成了一个安全上的隐患。个人认为这个安全隐患比较严重。   阅读全文
posted @ 2009-03-06 17:37 Birdshover 阅读(1023) | 评论 (5)编辑
     摘要: Lucene的文件系统分为内存和硬盘两个部分,文件逻辑组织方式暂且不提,本文将关注其物理结构,包括它在内存中如何存放,以及如何写入硬盘。  阅读全文
posted @ 2009-02-18 14:55 Birdshover 阅读(2004) | 评论 (6)编辑
     摘要: 索引时会抛出“System.IndexOutOfRangeException,索引超出了数组界限。”异常。  阅读全文
posted @ 2009-02-16 13:39 Birdshover 阅读(1704) | 评论 (5)编辑
     摘要: 自适应考试系统,粗浅一些的采用自定义规则,而严格一些的一般会选用“项目反应理论”来作为基础算法。  阅读全文
posted @ 2009-02-12 16:55 Birdshover 阅读(1655) | 评论 (2)编辑
     摘要: 今天群里有个朋友问"如何按类别统计搜索结果数?是不是要循环一个个类别去查询出总数啊?" 以Lucene.Net现在的API,只能这样做。当然这样做一般会带来性能问题,所以更好的解决方案就是改动库文件了。   阅读全文
posted @ 2009-01-09 17:42 Birdshover 阅读(2228) | 评论 (16)编辑
     摘要: 调用方式就不多说了,网上很多,但是傻子也知道这种调用有很大的缺陷。因为WebService是明文的,除非是很不重要的数据,这样调用纯粹就是找死。是个人就有办法攻破。要么是修改掉重要数据,要么就是数据无阻碍地被复制。加密对这种方式也不太好使。  阅读全文
posted @ 2008-12-17 14:21 Birdshover 阅读(2600) | 评论 (18)编辑
posted @ 2008-12-01 18:09 Birdshover 阅读(2329) | 评论 (34)编辑
     摘要: 特殊符号的问题,还是跟分词器息息相关的。在使用多条件或者构造搜索表单式的时候尽量使用内置类,而尽量不要手动构造查询字符串。  阅读全文
posted @ 2008-12-01 16:04 Birdshover 阅读(2264) | 评论 (9)编辑
     摘要: 重要的是知道去学基础的东西并不是一种倒退,不用框架页未必开发不出好东西来。  阅读全文
posted @ 2008-11-26 16:12 Birdshover 阅读(3001) | 评论 (47)编辑
     摘要: 2008-11-14更新: 版本更新为 0.1.0.0 r24 更新项: 1、调整数据库插件调用结构; 2、提升引擎对编码识别的效果; 3、舍弃了ThreadPool的操作方式,引入了完成端口来控制线程,主要解决了同时线程并发太多导致的超时现象比较严重的问题,当然也使抓取速度慢了一些。 下次改进应该会对抓取与文本处理进行分离。 提供当前版本编译预览文件下载:(格式RAR)  阅读全文
posted @ 2008-11-14 14:51 Birdshover 阅读(3937) | 评论 (58)编辑
     摘要: 本来想用纯javascript实现,然后给src的文件带参数,但是实际开发过程中,应该是我的js水平太菜,所以感觉不到想要的那种效果。后来就采用了javascript + iframe的方式来实现。是无刷新的那种哦,呵呵。  阅读全文
posted @ 2008-11-04 22:26 Birdshover 阅读(2374) | 评论 (12)编辑
     摘要: PythonNet是一个和IronPython想法差不多,但绝不一样。PythonNet可以让你写脚本来调用.Net Framework ,或者是你自己写的dll。  阅读全文
posted @ 2008-10-21 18:01 Birdshover 阅读(1577) | 评论 (7)编辑
     摘要: Berkeley DB是历史悠久的嵌入式数据库系统,主要应用在UNIX/LINUX操作系统上。Berkeley DB的存储的是key/value键值对,可以理解为硬盘上的超级hash表。其可以管理256TB数据,而且能支撑几千个并发访问。  阅读全文
posted @ 2008-10-07 17:53 Birdshover 阅读(2448) | 评论 (13)编辑
     摘要: db4o是面向对象的数据库,复杂应用就不说了,说点简单的。 数据库嘛,简单的操作就是添加,删除,更新和查询。   阅读全文
posted @ 2008-09-29 00:42 Birdshover 阅读(1765) | 评论 (8)编辑
     摘要: 本节终于开始介绍用Lucene.Net做搜索引擎中很重要的一个概念——表达式。介绍了表达式的与或非运算,以及如何用Query构造与或非关系。  阅读全文
posted @ 2008-09-26 20:56 Birdshover 阅读(2787) | 评论 (11)编辑
     摘要: 原本我以为安装了VS2008 SP1,内置了ADO.NET Entity Framework,MVC框架什么的,结果ADO.NET Entity Framework是有,但是MVC没有,却意外的有另外一个东西——动态数据 Web 应用程序。  阅读全文
posted @ 2008-09-24 16:51 Birdshover 阅读(3930) | 评论 (19)编辑
     摘要: 本文简单阐述了搜索是一个什么样的体系,在进入后面丰富多彩的体验之前,这篇显得很单调,呵呵。  阅读全文
posted @ 2008-09-23 21:00 Birdshover 阅读(2902) | 评论 (15)编辑
     摘要: NLuke是参照Luke(lukeall)的功能开发的Lucene索引管理工具,是用C#开发的基于.Net Framework运行的程序。  阅读全文
posted @ 2008-09-23 16:30 Birdshover 阅读(1960) | 评论 (24)编辑
     摘要: 本篇作为索引部分的完结篇,简单介绍了IndexWriter的常用方法,以及索引部署上的一些思考。IndexWriter像是CPU的指令集,更多的业务逻辑还需要自己思考。  阅读全文
posted @ 2008-09-19 13:16 Birdshover 阅读(2282) | 评论 (6)编辑
     摘要: 本节介绍了Field的boost如何设置,以及如何有效调整权重的一些经验之谈。  阅读全文
posted @ 2008-09-09 18:06 Birdshover 阅读(2382) | 评论 (19)编辑
     摘要: 本节从感性入手,从实验上分析,权重增长多少合适,增长会对其他文档得分产生什么样的影响。  阅读全文
posted @ 2008-09-06 00:54 Birdshover 阅读(2010) | 评论 (4)编辑
     摘要: 本节开始介绍,索引中设置权重对于搜索结果的影响,内容可能需要持续几节。将主要讲述,设置权重的最小量是多少比较好;分别用Field与Document设置权重的;多Field搜索时权重又会起到什么样的最用。这个话题太大了,冷汗一下。  阅读全文
posted @ 2008-09-05 22:40 Birdshover 阅读(2177) | 评论 (10)编辑
     摘要: 本节详细介绍了索引过程中,不同的Field配置会产生的各种情况。  阅读全文
posted @ 2008-09-03 22:27 Birdshover 阅读(2741) | 评论 (7)编辑
     摘要: NLuke是参照Luke(lukeall)的功能开发的Lucene索引管理工具,NLuke是用C#开发的基于.Net Framework运行的程序.  阅读全文
posted @ 2008-09-03 15:26 Birdshover 阅读(1142) | 评论 (2)编辑
     摘要: 本节介绍了Lucene.Net索引过程中的核心类,以及数据的流动路线。  阅读全文
posted @ 2008-09-02 01:45 Birdshover 阅读(2809) | 评论 (9)编辑
     摘要: 本节简单介绍了索引是什么?为什么要索引?以及Lucene.Net的逻辑存储结构。后面的小节将会围绕怎么索引展开。  阅读全文
posted @ 2008-09-01 02:13 Birdshover 阅读(3076) | 评论 (11)编辑
     摘要: 作为分词在一个阶段的结束篇,总感觉有点虎头蛇尾的味道。而如果现在讲基于词库,语言方面的分词感觉还是早了点,因此,这里就匆匆收笔,准备进入索引部分的探索。本节主要对比了一下Lucene.Net2.1前版和2.3.1版本在分词上的一个最主要的差别, 介绍了怎么修改。然后简单分析了下二元分词的优点和不足。  阅读全文
posted @ 2008-08-31 05:33 Birdshover 阅读(2238) | 评论 (10)编辑
     摘要: 本节介绍了如何开发自己的分词器,介绍了二元分词器的开发。因为版本的更新,需要对一些地方进行修改,下一节会对版本更新后导致问题做一个大致的分析。  阅读全文
posted @ 2008-08-31 00:51 Birdshover 阅读(2069) | 评论 (15)编辑