0

这是 rfc822、rfc2822 和 MIME 下定义的示例标头 现在我想使用 lucene 创建全文搜索。如果我使用标准分析器,它将创建太多无用的令牌,从而降低性能。有什么方法可以通过编写自定义分析器和标记器来创建好的标记。

来自 webmaster@email.marketingmag.ca

Microsoft Mail Internet 标头 2.0 版

收到:来自 sdlasd02.medicis.com ([172.23.163.35]) 由 mpc-exchange.medicis.com 与

微软 SMTPSVC(6.0.3790.3959); 2009 年 6 月 1 日星期一 04:30:59 -0700

收到:来自 sdlasd02.medicis.com 和 Microsoft SMTPSVC 的邮件取件服务;2009 年 6 月 1 日星期一 04:30:59 -0700

收到:来自 SDLMAIL01.medicis.com ([98.175.1.32]) 的 sdlasd02.medicis.com 和 Microsoft SMTPSVC(6.0.3790.1830);2009 年 6 月 1 日星期一 04:30:59 -0700

返回路径:bo-buhbpmfbpgh9f6axbzpa2ae1achzvh@b.email.marketingmag.ca

X-CTCH-ID:CFBA793F-FB3C-4DEB-A504-C6165B493680

X-CTCH-RefID:str=0001.0A090202.4A23BBF3.009A,ss=1,fgs=0

X-CTCH-动作:忽略

4

1 回答 1

0

您通常会为每个您感兴趣的标头添加一个字段(例如日期、消息 ID、发件人:等)并忽略其余部分。每个字段都属于相关类型,并进行相应分析

于 2012-10-17T07:22:19.527 回答