问题标签 [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 就数据挖掘和可视化的工具支持而言,日志事件的最佳 XML 格式是什么?
我们希望能够从我们的 Java 应用程序创建日志文件,这些文件适合以后由工具处理,以帮助调查错误和收集性能统计信息。
目前我们使用传统的“可能会或可能不会被展平为文本形式并附加到日志文件的日志内容”,但这最适用于人类读取的少量信息。
经过仔细考虑,最好的办法是将日志事件作为 XML 片段存储在文本文件中(然后像任何其他日志文件一样处理),然后使用适当的工具将它们下载到机器上进行后期处理。
我想使用尽可能广泛支持的 XML 格式,现在我正处于“研究-然后-制定-决策”阶段。我很感激在 XML 格式和工具方面的任何帮助,我很乐意编写胶水代码来获得我需要的东西。
到目前为止我发现了什么:
log4j XML 格式:由链锯和 Vigilog 支持。莉莉丝 XML 格式:莉莉丝支持
未经调查的工具:
Microsoft Log Parser:显然支持 XML。OS X 日志查看器:
加上http://www.loganalysis.org/sections/parsing/generic-log-parsers/上有很多工具
有什么建议么?
data-mining - 每天多次处理网络提要
好的,这里是简单的交易:我蜘蛛网络(所有类型的数据,博客/新闻/论坛),因为它出现在互联网上。然后我处理这个提要并对处理后的数据进行分析。爬虫没什么大不了的。随着互联网获取新数据,我几乎可以实时获取它。处理是一个瓶颈,它涉及一些计算量大的算法。
我正在寻求制定一个策略来安排我的蜘蛛。最大的目标是确保作为最终结果生成的分析尽可能多地反映最近输入的影响。开始想一想,显而易见的目标是确保数据不会堆积。我通过蜘蛛获取数据,传递给处理代码,等到处理结束,然后蜘蛛更多。这次带来了我在等待处理结束时出现的所有数据。好的,这是一个非常广泛的想法。
你们中的一些人可以分享您的想法,可能会大声思考。如果你是我,你会想到什么。我希望我的问题是有意义的。顺便说一句,这不是搜索引擎索引。
statistics - 使用数据挖掘/统计进行日志监控
我有大量的日志文件,我想描述或可能添加某种决策树或某种分析。但我不知道具体是什么。你对日志文件做了什么样的分析,大量的日志文件。
例如,到目前为止,我正在收集对给定日志文件的特定页面发出的请求数。
Servlet = 60 个请求 Servlet2 = 70 个请求,等等。
我想就在那里,只过滤最流行的请求。此外,在 2 小时内可能会执行 60 个请求。60 / 160 分钟。
c# - C#解析网页的源代码
在作为页面来源的文本墙中;我需要得到不带引号的 video_id,l 和 t,所以对于这样的部分。
“video_id”:“lUoiKMxSUCw”,“l”:105,“sk”:“-2fL6AANk__E49CRzF6_Q8F7yBPWdb9QR”,“fmt_map”:“35/640000/9/0/115,34/0/9/0/115,5/ 0/7/0/0", "t": "vjVQa1PpcFMbYtdhqxUip5Vtm856lwh7lXZ6lH6nZAg=",
我需要以下
luoiKMxSUCw
105
vjVQa1PpcFMbYtdhqxUip5Vtm856lwh7lXZ6lH6nZAg=
有人告诉我使用“正则表达式”,但我不确定如何使用它们。你能帮忙的话,我会很高兴 :)
unit-testing - 正确性定义不明确时进行测试?
我通常会尝试对任何可以轻松定义正确行为的代码使用单元测试,这些代码给出了一些相当小的、定义良好的输入集。这对于捕获错误非常有效,我一直在我的个人通用函数库中这样做。
然而,我写的很多代码都是数据挖掘代码,基本上是在大型数据集中寻找重要的模式。在这种情况下,正确的行为通常没有很好的定义,并且依赖于人类不容易预测的许多不同的输入(即数学不能合理地手工完成,这就是我使用计算机首先解决问题)。这些输入可能非常复杂,以至于几乎不可能提出合理的测试用例。识别值得测试的边缘情况非常困难。有时算法甚至不是确定性的。
通常,我会尽我所能通过使用断言进行完整性检查并创建一个具有已知模式的小玩具测试用例,并非正式地查看答案是否至少“看起来合理”,而不一定是客观正确的。有没有更好的方法来测试这些案例?
artificial-intelligence - 那里有什么样的人工智能工作?
在我的计算机科学学年中,我爱上了人工智能的许多方面。从专家系统、神经网络到数据挖掘(分类)。我想知道,如果我要专业地转变这种学术热情,那里有哪些与人工智能相关的工作?
machine-learning - 纠正收集数据中的已知偏差
好的,所以这里有一个类似于我的问题的问题(我将在下面详细说明真正的问题,但我认为这个类比会更容易理解)。
我有一个奇怪的双面硬币,每 1,001 次投掷中只有 1 次正面(随机)出现(其余为反面)。换句话说,每看到 1,000 个尾巴,就会有 1 个正面。
我有一种特殊的疾病,每看到 1,000 个尾巴,我只注意到 1 个,但我注意到每个头,所以在我看来,注意到头或尾的概率是 0.5。当然,我知道这种疾病及其影响,所以我可以弥补它。
现在有人给了我一枚新硬币,我注意到注意到正面的概率现在是 0.6。鉴于我的疾病没有改变(我仍然只注意到每 1,000 个尾巴中有 1 个),我如何计算这枚新硬币产生的实际正面与反面的比率?
好的,那么真正的问题是什么?好吧,我有一堆数据,包括输入和输出,分别是 1 和 0。我想教一个有监督的机器学习算法来预测给定输入的预期输出(0到1之间的浮点数)。问题是 1 非常罕见,这会破坏内部数学,因为它非常容易受到舍入误差的影响——即使是高精度浮点数学。
因此,我通过随机省略大部分 0 训练样本来对数据进行归一化,以使 1 和 0 的比率看起来大致相等。当然,这意味着现在机器学习算法的输出不再是预测概率,即。它现在将预测 0.5,而不是按应有的预测 0.001。
我需要一种方法将机器学习算法的输出转换回原始训练集中的概率。
作者注(2015-10-07):后来发现这种技术俗称“下采样”
r - R随机森林变量重要性
我正在尝试使用随机森林包在 R 中进行分类。
列出的变量重要性度量是:
- 第 0 类变量 x 的平均原始重要性得分
- 第 1 类变量 x 的平均原始重要性得分
MeanDecreaseAccuracy
MeanDecreaseGini
现在我知道这些“意味着”是什么,就像我知道它们的定义一样。我想知道的是如何使用它们。
我真正想知道的是,这些值仅在它们的准确程度、什么是好值、什么是坏值、最大值和最小值等方面意味着什么。
如果一个变量有一个高值,MeanDecreaseAccuracy
或者MeanDecreaseGini
这意味着它是重要的还是不重要的?此外,有关原始分数的任何信息也可能很有用。我想知道与这些数字的应用相关的所有信息。
使用“错误”、“求和”或“置换”等词的解释比不涉及任何讨论随机森林如何工作的更简单的解释更有帮助。
就像我希望有人向我解释如何使用收音机一样,我不希望解释涉及收音机如何将无线电波转换为声音。
web-crawler - 用于抓取和挖掘网站数据的最佳开源库或应用程序
我想知道用于抓取和分析网站的最佳 eopen-source 库是什么。一个例子是爬虫物业机构,我想从多个站点获取信息并将它们聚合到我自己的站点中。为此,我需要抓取网站并提取物业广告。