有人有使用Stata和Hadoop的经验吗?Stata 13 现在有一个Java Plugin API,所以我认为让它们玩起来应该很简单。
我对能够解析博客数据以将其转换为适合统计分析的形式特别感兴趣。
最近Statalist上出现了这个问题,但没有回应,所以我想我会在这里尝试一下,观众更有可能对这项技术有经验。
有人有使用Stata和Hadoop的经验吗?Stata 13 现在有一个Java Plugin API,所以我认为让它们玩起来应该很简单。
我对能够解析博客数据以将其转换为适合统计分析的形式特别感兴趣。
最近Statalist上出现了这个问题,但没有回应,所以我想我会在这里尝试一下,观众更有可能对这项技术有经验。
迪米特里,
我认为使用 ELK Stack ( http://www.elastic.co )做这样的事情会更容易。Logstash(中间层)有几个基于 Apache Lucene 引擎的解析器/标记器/分析器,用于清理和格式化日志数据,并且可以将结果数据推送到 elasticsearch,它公开了一个 HTTP API,您可以很容易地通过 curl 获取结果(例如,使用 insheetjson 并将 HTTP GET 请求作为 URL 传递,它应该可以毫无问题地导入 Stata)。
我一直在尝试拼凑一个程序来使用 Jackson JSON 库从 Stata 中构建更强大的 JSON I/O 功能,并且绝对不介意尝试与其他人一起完成它。
希望这会有所帮助,比利
我会接受(未?)受过教育的刺伤。从 java API 的外观来看,调用者似乎将 Stata 本质上视为一个数据存储。如果是这样的话,那么我会想象 Stata 将作为一个数据库融入到 hadoop 世界中,并且可以通过它自己的 InputFormat 和 OutputFormat 进行访问。在您的特定情况下,我想您会编写一个 StataOutputFormat ,您的减速器将使用它来写入解析的数据。唯一的缺点似乎是您引用的评论,即 Stata 应用程序往往受 I/O 限制,所以我不知道使用 hadoop 真的会对您有所帮助,因为