问题标签 [apache-spark-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 文本分类 - 如何处理
我会尽力描述我的想法。
MS SQL 数据库中存储了一个文本内容。内容每天都以流的形式出现。有些人每天都会浏览内容,如果内容符合某些标准,则将其标记为已验证。只有一类。它要么“有效”,要么无效。
我想要的是基于已经验证的内容创建一个模型,保存它并使用这个模型来“预验证”或标记新的传入内容。也偶尔根据新验证的内容更新模型。希望我清楚地解释了自己。
我正在考虑根据创建的模型使用 Spark 流进行数据分类。和朴素贝叶斯算法。但是您将如何创建、更新和存储模型?有大约 200K+ 不同长度的经过验证的结果(文本)。我需要这么多的模型吗?以及如何在 Spark Streaming 中使用这个模型。
提前致谢。
apache-spark - Spark DataFrame 转换 - 删除少于 3 个字母的单词
我正在使用我RegexTokenizer
的数据集进行模型构建。同时我想删除少于 3 个字母的单词。还有和。我怎样才能做到这一点?这是我的代码:` StopWordsRemover
tokenize
http
https
apache-spark - 我可以在 spark 中提取 fp-tree(任何格式)吗?
FPGrowth查找数据集在 中的频繁项集Apache Spark
。但是,我真的需要一个fp-tree
来可视化我的数据集。
是否可以使用我的数据集获得fp-tree
which spark 构造?
apache-spark - Apache Spark - 保存模型
我目前正在研究 apache spark,并且正在尝试从 Web 应用程序运行 java 代码。当我尝试将代码作为 java 应用程序运行时,它工作正常。但是当我尝试将它部署为 Web 应用程序时,当程序到达保存模型的阶段时,即model.save(sparkcontext,modelpath)
我收到一个permgen java.lang.OutOfMemory exception
. 但是当我尝试将模型编写为目标文件时,例如:
它工作正常。model.save()
在 apache spark 中是如何实现的?
有没有其他方法可以保存模型?
提前致谢
apache-spark - Spark 1.6.0 执行器因 ClassCastException 而死并导致超时
我正在尝试安装 Spark ML 管道,但我的执行者死了。该项目也在 GitHub 上。这是不起作用的脚本(有点简化):
它执行到最后一行。它打印“xx行上的训练模型”,然后开始拟合,执行程序死亡,驱动程序没有收到执行程序的心跳并且超时,然后脚本退出。它不会越过那条线。
这是杀死执行者的异常:
稍后,这会导致超时:
我在这里上传了 INFO 级别的日志文件。调试日志约为 500MB。
构建文件和依赖项似乎没问题:
apache-spark - SPARK、ML、Tuning、CrossValidator:访问指标
为了构建 NaiveBayes 多类分类器,我使用 CrossValidator 来选择管道中的最佳参数:
该管道包含以下顺序的常用转换器和估计器:Tokenizer、StopWordsRemover、HashingTF、IDF,最后是 NaiveBayes。
是否可以访问为最佳模型计算的指标?
理想情况下,我想访问所有模型的指标,看看改变参数是如何改变分类质量的。但就目前而言,最好的模型已经足够好了。
仅供参考,我使用的是 Spark 1.6.0
apache-spark - Spark、ML、StringIndexer:处理看不见的标签
我的目标是构建一个多类分类器。
我已经建立了一个用于特征提取的管道,它包括作为第一步的 StringIndexer 转换器,用于将每个类名映射到一个标签,这个标签将用于分类器训练步骤。
管道适合训练集。
为了提取相同的特征向量,必须通过拟合管道处理测试集。
知道我的测试集文件具有与训练集相同的结构。这里可能的场景是在测试集中遇到一个看不见的类名,在这种情况下,StringIndexer 将无法找到标签,并且会引发异常。
这种情况有解决方案吗?或者我们怎样才能避免这种情况发生?
apache-spark - SPARK ML,调优:多类逻辑回归的交叉验证
我正在使用 Spark 1.6,并且正在尝试使用 aCrossValidator
来调整multiclass Logistic Regression
分类器。
问题是forMultiClassClassificationEvaluator
不支持。CrossValidator
multiclass Logistic Regression
一种解决方案是在我的代码中手动重新编写交叉验证,在询问其他人是否遇到此问题以及如何解决之前,我不想开始这样做。