`
zljpp
  • 浏览: 255429 次
社区版块
存档分类
最新评论

lucene-解析xml

阅读更多
1、安装DOM4j
http://www.dom4j.org/
2、安装jaxen
http://jaxen.org/releases.html
3、代码
package extract;
import java.io.*;
import org.dom4j.*;
import org.dom4j.io.*;
import java.util.*;
public class XmlExtract {
private SAXReader reader;
private Document document;

/**
* @param args
*/
public XmlExtract(){
reader=new SAXReader();
try {
document=reader.read(new File("./htmls/abcde.xml"));
} catch (DocumentException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
@SuppressWarnings("unchecked")
public void exxml(String path){ 
if (document==null) return; 
List l=document.selectNodes(path);
System.out.println(path);
Iterator it=l.iterator();
while (it.hasNext()){
Element ele=(Element) it.next();
List li=ele.elements();
Iterator i=li.iterator();
while (i.hasNext()){
Element e=(Element) i.next();
System.out.println("name:"+e.getName()+"\t text:"+e.getText());
}

}
}
public static void main(String[] args) {
// TODO Auto-generated method stub
XmlExtract xmlext=new XmlExtract(); 
xmlext.exxml("/Config/vmacore/threadPool"); 
}
}

4、效果与截图
/Config/vmacore/threadPool
name:TaskMax text:40
name:IoMax text:81
name:IoMin text:1
xml文件内容
<!-- Sample configuration file for running UFA stack for P2V and VMI -->
<Config>
<vmacore>
<threadPool>
<TaskMax>40</TaskMax>
<IoMax>81</IoMax>
<IoMin>1</IoMin>
</threadPool>
<impersonate>true</impersonate>
<!--
<useRefTracker>true</useRefTracker>
<printRefDetails>true</printRefDetails>
-->
</vmacore>
<plugins>
<ufa_slave>
<path>ufa-slave.dll</path>
<primarySnapshotDriver>vss</primarySnapshotDriver>
<alternativeSnapshotDriver>vsnap</alternativeSnapshotDriver>
<enableBlockLevelVolumeCloning>true</enableBlockLevelVolumeCloning>
<vstor2Instance>vstor2-ws60</vstor2Instance>
</ufa_slave>
<ufa_client>
<path>ufa-client.dll</path>
</ufa_client>
<ufa_sysReconfig>
<path>ufa-sysReconfig.dll</path>
</ufa_sysReconfig>
<ufa_sysMigration>
<path>ufa-sysMigration.dll</path>
</ufa_sysMigration>
<ufa_vmImporter>
<path>ufa-vmImporter.dll</path>
<deleteVmFromFailedClone>true</deleteVmFromFailedClone>
</ufa_vmImporter>
<ufa_agent>
<path>ufa-agent.dll</path>
<enableRemoteAccess>true</enableRemoteAccess>
<enableSoapAdapter>false</enableSoapAdapter>
<!--<soapPort>8086</soapPort>-->
<enableVmdbAdapter>true</enableVmdbAdapter>
<!--<vmdbAdapterListener>both</vmdbAdapterListener>-->
<!--<vmdbAdapterListener>tcp</vmdbAdapterListener>-->
<vmdbAdapterListener>namedPipe</vmdbAdapterListener>
<vmdbPipeName>vmware-ufad-ws60-beta3-vmdb</vmdbPipeName>
<!--<vmdbPort>9006</vmdbPort>-->
</ufa_agent>
</plugins>
<log>
<name>vmware-converter</name>
<level>verbose</level>
</log>
<!-- Remove the following node to disable SSL -->
<ssl>
<!-- Private key file -->
<privateKey>ssl/rui.key</privateKey>
<!-- Certificate file -->
<certificate>ssl/rui.crt</certificate>
</ssl>
</Config>
分享到:
评论

相关推荐

    OSChina 所有jar

    7 commons-digester-2.0.jar XML解析,Velocity依赖 8 commons-email-1.2.jar 邮件发送包 9 commons-httpclient-3.1.jar HTTP客户端 10 commons-io-1.4.jar IO处理包 11 commons-lang-2.4.jar 语言处理包 12 ...

    web开发常用jar

    Apache Commons包中的一个,通过它可以很方便的解析xml文件生成java对象 aspectjrt.jar 和aspectjweaver.jar Annotation 方式实现 AOP commons-dbcp.jar commons-pool-1.2.jar DBCP数据库连接池 cglib-nodep...

    信息检索Lucene课程设计

    信息检索中的课程设计,可以说是用lucene处理文档的一个模板,包括对doc,html,xml,xls,pdf等文件类型的解析与索引,压缩包不仅包含可运行的jar文件,而且有所有所需的lib包,不用再重新下载

    folioxml:Folio Flat File到XMLHTMLLucene转换框架

    这是Folio Flat File数据库的完整流式处理词法分析器,解析器和编译器。 输出包括SLX,XML,HTML和Lucene。 基于流的(不是基于DOM的)-可以以非常低的RAM使用率快速处理千兆字节。 第一步是无损转换为SLX格式。 ...

    java开发常用jar包

    Hibernate使用dom4j解析XML配置文件和XML映射元文件。必需的。 ehcache-1.2.jar Hibernate可以使用不同cache缓存工具作为二级缓存。EHCache是缺省的cache缓存工具。如果没有其它的可选缓存工具,则为必需的。 ...

    JAVA学习的参考学习流程

    07 XML 基础语法 --&gt; 解析(DOM/SAX/JDOM) 08 分布式开发 RMI --&gt; EJB 3.0 --&gt; XFire --&gt; Web Services 09 搜索引擎 Lucene、HTMLParser、Heritrix 10 工作流 JBPM 11 开发工具 Eclipse、Jboss IDE

    ir-generalized-translation-models:Lucene&Solr中实现的概率相关性框架中的广义翻译模型

    信息检索-泛化翻译模型该存储库包含本文的Lucene&Solr实现: 概率相关框架中的通用翻译模型Rekabsaz,Lupu,Hanbury,Zuccon-CIKM '16( )执行该存储库允许使用Solr解析器和Lucene查询扩展Lucene&Solr。...

    基于Lucene.Net 的桌面搜索源代码

    Lucene.Net 源搜索引擎源代码 使用说明: 一、在IIS上建立虚拟目录,指向web 二、Web\Data\Config.xml 配置索引目录 三、运行Web\Data\IndexFiles.exe 建立文件索引(自己也可以写一个批处理,定时更新索引) 四、...

    lucene nutch 搜索引擎 开发 实例 源代码 源码

    lucene nutch 搜索引擎 开发 实例 源代码 源码 包含lucene使用的所有源代码,从建立索引,搜索,删除,...还有PDF 解析,WORD解析 ,EXCEL,ppt,xml解析等,,都有源码实现 还有nutch源码,spider源码。。。 非常齐全

    Information-Retrieval:Java、Lucene 和信息检索

    作业分三部分解析TREC-&gt;我用xml解析器解析了语料库中的所有trec doc。 索引-&gt; 使用 lucene 库为上一步提取的标记创建索引。 不同的分析器-&gt;使用 lucene 库中的关键字、停用词、标准和简单分析器,并比较了每个分析...

    wikipedia-redirects

    维基百科重定向用于提取和搜索维基百科重定向(替代标题)的 Java 项目Michael ... 该存储库包含两个 Java 项目: - 解析 Wikipedia XML 转储并将替代标题数据保存到 CSV 文件- 从文件中读取替代标题,在 Lucene 中索

    XML,XSLT,AJAX三大技术打造开源多用户博客X3BLOG

    X3-BLOG完美的利用了浏览器的XML解析技术,完全实现数据和界面的分离,使网络传输数据量大大减少,加载速度远远超过了市面上所有的BLOG产品,有效的减轻了服务器的带宽压力,服务器端使用四大动态网站开发语言中...

    wikipedia-redirect-pages

    Hadoop(2.5.1 或更高版本) Hadoop 和 Lucene 所需的所有库都包含在 data/lib/ 目录中 安装 首先,克隆存储库。 git clone https://github.com/durcakd/wikipedia.git cd wikipedia 数据 包含在 test/ 目录中的...

    Information-Retrieval:一个简单的网络爬虫和 xml 解析器。 为“信息检索”课程编写

    create 要创建新的索引类型 create INDEXPATH XMLPATH,其中 INDEXPATH 是路径,索引应保存到的位置。 URL 是 url,爬行应该从哪里开始,DEPTH 是爬行的递归深度。 load 使用 load INDEXPATH 你可以加载一个已经...

    solr 企业搜索引擎教程

    Apache Lucene 实现。定制 Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一 ... 基于 WEB 的查询和调试输出:解析查询输出,Lucene 的 explain 方法细节,能够解释为 何某个文档打分低,被排除在结果中等等

    osm-common:用于访问OpenStreetMap服务,解析和处理数据的库

    API主要包括对Nominatim,Overpass,变更集存储和osm / osc.xml-parsing的支持。 模块核心包含几个在模块java和android模块中实现的抽象类。 java和android模块之间的区别是使用XML流API和Lucene版本。 se.kodapan....

    一个未做完的网站(界面不太好看)

    用户的注册,登陆,密码的找回(将密码发入用户的邮箱,在邮箱中点击连接修改密码),用户的问题及答案存入XML文件(XML文件的写入及解析),及后台问题分类的添加及修改,搜索索引的建立(lucene框架索引的建立)等...

    dom4j

    titleElement.setText("Lucene Studing"); bookElement = booksElement.addElement("book"); bookElement.addAttribute("show","no"); titleElement = bookElement.addElement("title"); ...

    X3BLOG v0.7.5.0

    &lt;br&gt;功能与特点 &lt;br&gt; X3-BLOG完美的利用了浏览器的XML解析技术,完全实现数据和界面的分离,使网络传输数据量大大减少,加载速度远远超过了市面上所有的BLOG产品,有效的减轻了服务器的带 &lt;br&gt;宽压力,...

    X3-BLOG 博客源码

    X3-BLOG完美的利用了浏览器的XML解析技术,完全实现数据和界面的分离,使网络传输数据量大大减少,加载速 度远远超过了市面上所有的BLOG产品,有效的减轻了服务器的带宽压力,服务器端使用四大动态网站开发语言中...

Global site tag (gtag.js) - Google Analytics