0

我正在寻找一个解析日志文件(或传入请求)并在请求来自搜索引擎时提取搜索词的库。

有没有提供这个功能的好库?

任何语言都可以。

4

2 回答 2

0

Java 有 Lucene 框架,它是一个高性能的文本搜索引擎。日志文件可以处理这个问题,但是对于传入的请求可能会更棘手。您需要在流式传输时对其进行解析吗?

于 2010-10-05T19:40:24.003 回答
0

有很多方法可以获取、解析和分析您所说的数据。

非常简单,您可以使用日志文件文本并将它们导入 SQL 数据库进行分析(允许您还查看其他请求等)。

您可以使用 Google Analytics 等软件服务。

或者我个人最喜欢的:

将 aSQL INSERT写入跟踪表。这样做,您可以将字符串解析为子句——非常简单地按单词分隔。这样做的缺点是您会错过关键字词组,例如“New York”(两个词)。

建议 Lucene 的人提供了一些信息,可以让您构想出一个非常简洁的分析器,但要获得完整的解决方案需要做很多工作。Lucene 和 Solr 的巧妙之处在于,它们可以使用标准库对关键字字符串进行标记(在您拥有 CompoundWords 或 CamelCaseKeywords 的地方分出两到三个单词子句)。

从实用的方法来看,我认为最好使用现成的东西,比如谷歌分析。如果您有时间和技能,将记录插入数据库可以在您添加时变得非常强大。

于 2010-10-05T19:56:25.937 回答