1)文件全文搜索
首先导入三个核心包(hibernate-search.jar、hibernate-commons-annotations.jar和lucene-core.jar)和一个高亮的包(lucene-highlighter-2.0.0.jar)到web app里面;
创建索引数据库类:
package com.golden.info.test;
import java.io.File;
import net.paoding.analysis.analyzer.PaodingAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.index.IndexWriter;
/**
* @author liuxh
*初始化检索库
*/
public class CreateDataBase{
public CreateDataBase(){
}
public int createDataBase(File file){
int returnValue=0;
if(!file.isDirectory()){
file.mkdirs();
}
try{
IndexWriter indexWriter= new IndexWriter(file,new StandardAnalyzer(),true);
indexWriter.close();
returnValue=1;
}catch(Exception ex){
ex.printStackTrace();
}
return returnValue;
}
/**
*传入检索库路径,初始化库
* @paramfile
* @return
*/
public int createDataBase(String file){
return this.createDataBase(new File(file));
}
public static void main(String[]args){
CreateDataBase temp= new CreateDataBase();
if(temp.createDataBase("e:\\lucene\\holendb")==1){ //创建数据库存放的路径
System.out.println("数据库初始化成功");
}
}
}
然后添加记录:
package com.golden.info.test;
import java.io.File;
import java.io.FileReader;
import java.io.Reader;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
/**
* @author liuxh
*记录加载
*/
public class InsertRecords{
public InsertRecords(){
}
public int insertRecords(String dbpath,File file){
int returnValue=0;
try{
IndexWriter indexWriter = new IndexWriter(dbpath,new StandardAnalyzer(),false);
this.addFiles(indexWriter,file);
returnValue=1;
}catch(Exception ex){
ex.printStackTrace();
}
return returnValue;
}
/**
*传入需加载的文件名
* @paramfile
* @return
*/
public int insertRecords(String dbpath,String file){
return this.insertRecords(dbpath,new File(file));
}
public void addFiles(IndexWriter indexWriter,File file){
Document doc= new Document();
try{
doc.add(new Field("filename",file.getCanonicalPath(),Field.Store.YES,Field.Index.UN_TOKENIZED)); //注
doc.add(new Field("content",this.chgFileToString(file),Field.Store.YES,Field.Index.TOKENIZED));//注
indexWriter.addDocument(doc);
indexWriter.close();
}catch(Exception ex){
ex.printStackTrace();
}
}
/**
*从文本文件中读取内容
* @paramfile
* @return
*/
public String chgFileToString(File file){
String returnValue= null;
StringBuffer sb= new StringBuffer();
char[]c= new char[4096];
try{
//读取的文件必须是UTF-8格式的,不然读出来的中文为乱码
Reader reader= new FileReader(file);
int n=0;
while(true){
n=reader.read(c);
if(n>0){
sb.append(c,0,n);
}else{
break;
}
}
reader.close();
}catch(Exception ex){
ex.printStackTrace();
}
returnValue=sb.toString();
return returnValue;
}
public static void main(String[] args){
InsertRecords temp= new InsertRecords();
String dbpath="e:\\lucene\\holendb";
//holen1.txt中包含关键字"holen"和"java"
if(temp.insertRecords(dbpath,"e:\\lucene\\holen1.txt")==1){
System.out.println("添加文件成功");
}
//holen2.txt中包含关键字"holen"和"chen"
if(temp.insertRecords(dbpath,"e:\\lucene\\holen2.txt")==1){
System.out.println("添加文件成功");
}
}
}
注:lucene 2.0中去掉了Field.Text和Field.KeyWord,不过网上的sample code还在用,所以会造成许多刚接触lucene的人遇到问题,我就是其中一个。
新的写法需要直接new一个Field对象:
Reader txtReader = new FileReader(f);
doc.add(new Field(”path”,f.getCanonicalPath(),Field.Store.YES,Field.Index.UN_TOKENIZED));
doc.add(new Field(”contents”,txtReader));
不过Field.Index.UN_TOKENIZED也即将在lucene3中消失了,到时候又要改了。
查询方法并高亮关键字:
package com.golden.info.test;
import java.io.StringReader;
import java.util.ArrayList;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.Searcher;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleFragmenter;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
/**
* @author liuxh
*检索查询
*/
public class QueryRecords{
public QueryRecords(){
}
/**
*检索查询,将结果集返回
* @param searchkey
* @param dbpath
* @param searchfield
* @return
*/
public ArrayList queryRecords(String searchkey,String dbpath,String searchfield){
ArrayList list= null;
try{
Searcher searcher= new IndexSearcher(dbpath);
// 对于单个字段进行查询
// QueryParser parse=new QueryParser(searchfield,new StandardAnalyzer());
// Query query =parse.parse(searchkey);
// 对多个字段进行查询
String[] productFields = {"filename", "content"};
QueryParser parse = new MultiFieldQueryParser(productFields, new StandardAnalyzer());
parse.setAllowLeadingWildcard(true);
Query query=parse.parse(searchkey);
Hits hits=searcher.search(query);
if(hits!= null){
list= new ArrayList();
int temp_hitslength=hits.length();
Document doc= null;
Analyzer analyzer = new StandardAnalyzer();
//高亮显示设置
Highlighter highlighter = null;
SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<read>","</read>");
highlighter = new Highlighter(simpleHTMLFormatter,new QueryScorer(query));
highlighter.setTextFragmenter(new SimpleFragmenter(100));//这个100是指定关键字字符串的context的长度,你可以自己设定,因为不可能返回整篇正文内容
for(int i=0;i<temp_hitslength;i++){
doc=hits.doc(i);
TokenStream tokenStream2 =analyzer.tokenStream("filename", new StringReader(doc.get("filename")));
list.add(highlighter.getBestFragment(tokenStream2,doc.get("filename")));
TokenStream tokenStream =analyzer.tokenStream("content", new StringReader(doc.get("content")));
list.add(highlighter.getBestFragment(tokenStream,doc.get("content")));
}
}
}catch(Exception ex){
ex.printStackTrace();
}
return list;
}
public static void main(String[]args){
QueryRecords temp= new QueryRecords();
ArrayList list= null;
//搜索在那个字段中的内容,其中第一个参数为查询关键字,第二个参数为库文件的路劲,第三个参数为字段名字
list=temp.queryRecords("holen 我游 lucene","e:\\lucene\\holendb","content");
for(int i=0;i<list.size();i++){
System.out.println((String)list.get(i));
}
}
}
2)数据库全文搜索
首先,我们需要将相关配置添加到persistence.xml中,如下:
<!-- use a file system based index -->
<property name="hibernate.search.default.directory_provider" value="org.hibernate.search.store.FSDirectoryProvider" />
<!-- directory where the indexes will be stored -->
<property name="hibernate.search.default.indexBase" value="[/path/to/your/location/directory]" />
<property name="hibernate.ejb.event.post-insert" value="org.hibernate.search.event.FullTextIndexEventListener" />
<property name="hibernate.ejb.event.post-update" value="org.hibernate.search.event.FullTextIndexEventListener" />
<property name="hibernate.ejb.event.post-delete" value="org.hibernate.search.event.FullTextIndexEventListener" />
这样我们就设置好了类路径、索引路径、索引操作监听器路径。下面,我们需要添加hibernate-search.jar、hibernate-commons-annotations.jar和lucene-core.jar到你的ear里面。
好了,现在,我们需要告诉Hibernate Search哪个对象被索引,并且我们会对哪些属性感兴趣。
@Entity
@Name("product")
@Indexed
public class Product implements Serializable {
static final long serialVersionUID = 1l;
@Id @GeneratedValue @DocumentId
private Long id;
@NotNull
@Field(index = Index.TOKENIZED)
private String name;
@NotNull
@Field(index = Index.TOKENIZED)
private String description;
// getters and setters
}
@Indexed注解用来告诉Hibernate Search该持久类是拥有索引的。@DocumentId注解用来标明这个属性是这个对象的ID,并且未被编入索引。此外,我们还有两个属性,分别是 name和description。这两个属性都用@Field标注,这样Hibernate Search就被允许分析处理这两个属性。其他可选的属性有Index.NO(不要被分析)、Index.UN_TOKENIZED(不要被分析器预先处理)、Index.NO_NORM(不需要存储的普通属性)。
现在,我们已经拥有了Lucene的所有索引,我们还需要一个搜索的方法。所以我们需要建立一个SearchManager类。
@Name("SearchManager")
public class SearchManager {
@In
private FullTextEntityManager entityManager;
private String searchPattern;
// getters and setters for searchPattern
public List getResults() {
Map boostFields = new HashMap(2);
// increase the importance of the name field
// over the other product fields
boostFields.put("name", 4f);
String[] productFields = {"name", "description"};
QueryParser parser = new MultiFieldQueryParser(productFields, new StandardAnalyzer(), boostFields); parser.setAllowLeadingWildcard(true);
Query luceneQuery;
try {
luceneQuery = parser.parse(searchPattern);
} catch (ParseException pe) {
log.error("found a problem in search", pe);
return null;
}
// extract the products
List products =entityManager.createFullTextQuery(luceneQuery, Product.class).
setMaxResults(20).getResultList();
return products;
}
}
好了,现在我们可以创建search.xhtml文件,用来显示搜索结果了。下面是该文件的一个片段。
<rich:dataGrid value="#{SearchManager.results}" var="garage">
[ loop over the values ]
</rich:dataGrid>
然后,在pages.xml中添加一个到search.xhtml的入口。
<page view-id="/search.xhtml">
<param name="searchPattern" value="#{SearchManager.searchPattern}"/>
</page>
还剩下一个步骤。我们需要添加一个搜索框到菜单里面。如果你使用了Seam的默认布局,你就会看见/view/layout文件夹下面有一个menu.xhtml文件。如果没有找到,只需要将下面这一段添加到你需要的地方:
<h:form id="search_form">
<h:inputText id="searchPattern" required="true" value="#{SearchManager.searchPattern}" />
<h:commandButton action="/search.xhtml" value="search"></h:commandButton>
</h:form>
现在,你可以开始搜索你想要的对象了。是不是非常简单?但是,如果对象的一个属性是用来表示这个对象是否能显示在页面上,那应该怎么办?好的,在这种情况下,你需要添加一个过滤器。过滤器都继承自org.apache.lucene.search.Filter类。
想象一下,我们在产品类上有一个属性是用来标明产品的状态的,这个属性有三种值"L"表示有效的产品,"D"表示被删除的产品,"P"表示待发布的产品。显然,在用户搜索的时候,我们只想显示出可见的产品。所以我们需要添加一个过滤器:
1. public class LiveProductFilter extends Filter {
2. private static final long serialVersionUID = 1l;
3. public BitSet bits(IndexReader reader) throws IOException {
4. BitSet bitSet = new BitSet( reader.maxDoc() );
5. TermDocs termDocs = reader.termDocs( new Term("status", "L") );
6. while ( termDocs.next() ) {
7. bitSet.set( termDocs.doc() );
8. }
9. return bitSet;
10. }
11. }
为了让Hibernate Search能够找到我们在产品类上添加的过滤器,我们需要添加下面这个注解:
@FullTextFilterDefs ( { @FullTextFilterDef(name="liveProduct", impl = LiveProductFilter.class, cache=false) })好了,就写到这里。
参考文件:http://huxiuliang.iteye.com/blog/583136
注:数据库全文搜索暂时没有配置成功,加载监听器的时候报找不到类文件
分享到:
相关推荐
搜索引擎Lucene结合Hibernate的例子,带有所有的LIB!
struts2 + spring2.5 + hibernate 3.2 + lucene 2.4 + compass 2.0 包含所有jar包,按readme.txt导入并运行即可 开始不用分了................
Hibernate Search主要有以下功能特点:1,功能强大,配置简单 - 配置只需要修改persistence.xml(JPA),hibernate.cfg.xml(Hibernate)2,支持Hibernate,以及EJB3 JPA标准应用3,集成全文搜索引擎Lucene - Lucene...
hibernate-search小例子,myeclipse工程文件,有jar包,只要有mysql和myeclipse就可以直接运行。文章在http://blog.csdn.net/hortond。对文件索引和数据库感兴趣的可以下来看看,lucene是个很强大的全文搜索引擎。
hibernate-search, Hibernate Search Hibernate 搜索版本:5.8.0. Final - 13-09-2017描述针对Java对象的全文搜索这个项目提供 Hibernate ORM和全文索引服务( 如 Apache Lucene和 Elasticsearch
Lucene与SSH2搜索功能,学习交流下,多多拍砖
使用compass+lucene实现简单的全文检索功能 里面整合了spring2.5、hibernate3.2、struts2.0,是对数据库进行全文检索的一个非常好的demo的所有jar包组合! 对研究基于数据库检索的java开源搜索引擎的朋友有很大的...
它是hibernate对著名的全文检索系统Lucene的一个集成方案,作用在于对数据表中某些内容庞大的字段(如声明为text的字段)建立全文索引,这样通过hibernate search就可以对这些字段进行全文检索后获得相应的POJO,...
Hibernate搜索 描述 Hibernate Search自动从Hibernate ORM实体中提取数据,以将其推送到本地索引或远程索引。 它具有以下特点: 通过注释或编程API将实体属性到索引字段。 对数据库中的所有实体进行,以使用预先...
49.spring 4.0.1整合hibernate 4.3.1 50.搜索引擎实战(1) 51.搜索引擎实战(2) 52.搜索引擎实战(3) 53.搜索引擎实战(4) 54.搜索引擎实战(5) 55.搜索引擎实战(6) 56.搜索引擎实战(7) 57.搜索引擎实战(8) 58.搜索引擎...
java struts spring hibernate COMPASS+lucene搜索引索
它是hibernate对著名的全文检索系统Lucene的一个集成方案,作用在于对数据表中某些内容庞大的字段(如声明为text的字段)建立全文索引,这样通过hibernate search就可以对这些字段进行全文检索后获得相应的POJO,...
整个项目的构建全部采用最新技术,包括但不限于以下技术:struts 2.3.16 +spring 4.0.1 +hibernate 4.3.1+jquery-easyui 1.3.5+lucene 4.6.0+solr 4.6.0+Heritrix1.14并对其做了二次封装。为了增进学员的理解,课程...
Compass将lucene、Spring、Hibernate三者的起来,以很低很低的成本快速实现企业应用中的搜索功能。 ... 下面是compass在spring中的简明配
为轻量化的异步性集成了EJB Timer Service和Quartz,为工作流集成了jBPM,为业务规则集成了JBoss规则,为电子邮件集成了Meldware Mail,为完整的文本搜索集成了Hibernate Search和Lucene,为消息集成了JMS,以及为...
Hibernate搜索:全文搜索Apache Luceneíndices(职位:阿尔及利亚,同情心) Hibernate OGM:基于datos NoSQL的JPA soporte Diferenciar: JDBC JPA-Especificación(Java EE)javax.persistence-persistence....
Hibernate搜索描述全文搜索Java对象该项目提供了由Hibernate ORM管理的实体与诸如Apache Lucene和Elasticsearch之类的全文索引服务之间的同步。 它将自动将更改应用于索引,这是繁琐且容易出错的编码工作,同时使您...
搜索插件 这个插件旨在通过几个步骤将 Hibernate Search 功能集成到 Grails 中。 入门 如果你不想从 开始,你可以开始一个新的项目: 并将以下内容添加到您的依赖项中 compile("org.grails.plugins:hibernate-search...
Lucene提供了一个简单强大的应用程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟的免费开放源代码工具;就其本身而论,Lucene是现在并且是这几年,最受欢迎的免费java资讯检索程式库。人们经常...
这个项目是一个基于Java语言开发的Web应用程序,采用SSM(Spring+SpringMVC+MyBatis)或SSH(Spring+SpringMVC+Hibernate)框架进行开发,使用MySQL作为数据存储,JSP作为页面开发。 项目的目标是构建一个高效、可靠...