问题标签 [apache-spark-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
547 浏览

apache-spark - 文本分类 - 如何处理

我会尽力描述我的想法。

MS SQL 数据库中存储了一个文本内容。内容每天都以流的形式出现。有些人每天都会浏览内容,如果内容符合某些标准,则将其标记为已验证。只有一类。它要么“有效”,要么无效。

我想要的是基于已经验证的内容创建一个模型,保存它并使用这个模型来“预验证”或标记新的传入内容。也偶尔根据新验证的内容更新模型。希望我清楚地解释了自己。

我正在考虑根据创建的模型使用 Spark 流进行数据分类。和朴素贝叶斯算法。但是您将如何创建、更新和存储模型?有大约 200K+ 不同长度的经过验证的结果(文本)。我需要这么多的模型吗?以及如何在 Spark Streaming 中使用这个模型。

提前致谢。

0 投票
1 回答
788 浏览

apache-spark - Spark DataFrame 转换 - 删除少于 3 个字母的单词

我正在使用我RegexTokenizer的数据集进行模型构建。同时我想删除少于 3 个字母的单词。还有和。我怎样才能做到这一点?这是我的代码:` StopWordsRemovertokenizehttphttps

0 投票
0 回答
52 浏览

apache-spark - 我可以在 spark 中提取 fp-tree(任何格式)吗?

FPGrowth查找数据集在 中的频繁项集Apache Spark。但是,我真的需要一个fp-tree来可视化我的数据集。

是否可以使用我的数据集获得fp-treewhich spark 构造?

0 投票
1 回答
4822 浏览

apache-spark - 在 Apache Spark Python 中自定义 K-means 的距离公式

现在我使用 K-means 进行聚类并遵循本教程API

但我想使用自定义公式来计算距离。那么如何使用 PySpark 在 k-means 中传递自定义距离函数?

0 投票
1 回答
286 浏览

apache-spark - Apache Spark - 保存模型

我目前正在研究 apache spark,并且正在尝试从 Web 应用程序运行 java 代码。当我尝试将代码作为 java 应用程序运行时,它工作正常。但是当我尝试将它部署为 Web 应用程序时,当程序到达保存模型的阶段时,即model.save(sparkcontext,modelpath)我收到一个permgen java.lang.OutOfMemory exception. 但是当我尝试将模型编写为目标文件时,例如:

它工作正常。model.save()在 apache spark 中是如何实现的?

有没有其他方法可以保存模型?

提前致谢

0 投票
2 回答
1236 浏览

apache-spark - Spark 1.6.0 执行器因 ClassCastException 而死并导致超时

我正在尝试安装 Spark ML 管道,但我的执行者死了。该项目也在 GitHub 上。这是不起作用的脚本(有点简化):

它执行到最后一行。它打印“xx行上的训练模型”,然后开始拟合,执行程序死亡,驱动程序没有收到执行程序的心跳并且超时,然后脚本退出。它不会越过那条线。

这是杀死执行者的异常:

稍后,这会导致超时:

我在这里上传了 INFO 级别的日志文件。调试日志约为 500MB。

构建文件和依赖项似乎没问题:

0 投票
1 回答
1797 浏览

scala - 火花数据框 API 中的标记器

Spark 数据帧的每一行在dfcolumn 中包含一个制表符分隔的字符串rawFV。我已经知道在选项卡上拆分将为array of 3 strings所有行生成一个。这可以通过以下方式验证:

并确保计数确实是0.

我的问题是:如何使用管道 API 做到这一点?

这是我尝试过的:

不等于0

这个问题与缺失值的存在有关。例如:

例子

管道代码RegexTokenizer将在第一行返回 3 个字段,但在第二行仅返回 2 个。另一方面,第一个代码将在任何地方正确返回 3 个字段。

0 投票
2 回答
3307 浏览

apache-spark - SPARK、ML、Tuning、CrossValidator:访问指标

为了构建 NaiveBayes 多类分类器,我使用 CrossValidator 来选择管道中的最佳参数:

该管道包含以下顺序的常用转换器和估计器:Tokenizer、StopWordsRemover、HashingTF、IDF,最后是 NaiveBayes。

是否可以访问为最佳模型计算的指标?

理想情况下,我想访问所有模型的指标,看看改变参数是如何改变分类质量的。但就目前而言,最好的模型已经足够好了。

仅供参考,我使用的是 Spark 1.6.0

0 投票
5 回答
25418 浏览

apache-spark - Spark、ML、StringIndexer:处理看不见的标签

我的目标是构建一个多类分类器。

我已经建立了一个用于特征提取的管道,它包括作为第一步的 StringIndexer 转换器,用于将每个类名映射到一个标签,这个标签将用于分类器训练步骤。

管道适合训练集。

为了提取相同的特征向量,必须通过拟合管道处理测试集。

知道我的测试集文件具有与训练集相同的结构。这里可能的场景是在测试集中遇到一个看不见的类名,在这种情况下,StringIndexer 将无法找到标签,并且会引发异常。

这种情况有解决方案吗?或者我们怎样才能避免这种情况发生?

0 投票
0 回答
389 浏览

apache-spark - SPARK ML,调优:多类逻辑回归的交叉验证

我正在使用 Spark 1.6,并且正在尝试使用 aCrossValidator来调整multiclass Logistic Regression分类器。

问题是forMultiClassClassificationEvaluator不支持。CrossValidatormulticlass Logistic Regression

一种解决方案是在我的代码中手动重新编写交叉验证,在询问其他人是否遇到此问题以及如何解决之前,我不想开始这样做。