问题标签 [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Twitter sentiment analysis using Naive Bayes in apache spark
I am trying to do a basic twitter sentiment analysis, by using apache spark.
The below page explains on Naive Bayes function used at apache spark which would be a candidate for the above problem. http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html
when you check at the java example, the training and test set are given as
I dont have any clue what datatype they are, but i can understand that they are some non english inputs.
I have a list of tweets say.
"I love my country."
"Great day at office."
"Google Chrome sucks!"
How do i use the naive bayes function to process the text ?
any insights on this would be helpful.
apache-spark - 用于 Spark 的 MLlib 的 TFIDF 生成期间内存不足异常
在使用 MLlib 的 Naive Baye 分类实现创建用于文档分类的 TFIDF 向量时,我遇到了内存溢出问题。
为所有术语收集 idf 时会发生内存溢出和 GC 问题。为了了解规模,我正在从 HBase 读取大约 615,000 个(大约 4GB 的文本数据)小型文档,并运行具有 8 个内核和 6GB 执行程序内存的 spark 程序。我曾尝试提高并行度和随机播放内存分数,但无济于事。
我该如何解决这个OOM问题?
谢谢
java - 如何减少“java -jar”运行的火花应用程序的时间
我以两种方式执行 spark 应用程序。应用程序是使用 MlLib 进行朴素贝叶斯训练。
- 使用“spark-submit”:然后在一组数据上成功执行。
- 使用“java -jar”:然后从案例 1 中花更多时间。
在这两种情况下都具有相同的数据集和相同的配置。
任何人都可以帮助我减少使用“java -jar”执行 spark 应用程序的时间。
apache-spark - mllib 的输入文件格式
我是机器学习的新手。我正在尝试使用 MLlib 的决策树。
有人可以帮助我如何为多类别分类的 mllib 决策树准备输入文件。
我的 csv 文件的格式为
标签,文字
mllib 所需的输入格式是 libsvm 或标记点。
文件格式中不允许有文本。问题是如何将文本映射到 mllib 所需的基于数字数据的文件格式,然后解释结果。我正在使用 java 来实现。
问候
python - 如何在 MLlib 中实现与 Scikit-Learn 等效的 predict_proba(X)
python-wise 我更喜欢 .predict_proba(X) 而不是 .decision_function(X) 因为我更容易解释结果。据我所见,后者的功能已经在 Spark 中实现(例如,在 0.9.2 版本中,我必须自己计算点积,否则我得到 0 或 1)但前者尚未实现(还!)。我应该怎么做\如何在Spark中实现那个?这里所需的输入是什么?公式看起来如何?
scala - Spark MLLib 线性回归模型截距总是 0.0?
我刚开始使用 ML 和 Apache Spark,所以我一直在尝试基于 Spark 示例的线性回归。除了示例中的样本外,我似乎无法为任何数据生成合适的模型,并且无论输入数据如何,截距始终为 0.0。
我已经准备了一个基于函数的简单训练数据集:
y = (2*x1) + (3*x2) + 4
即,我希望截距为 4,权重为 (2, 3)。
如果我对原始数据运行 LinearRegressionWithSGD.train(...),则模型为:
并且预测都是 NaN:
ETC
如果我先缩放数据,我会得到:
ETC
要么我做错了什么,要么我不明白这个模型的输出应该是什么,所以有人可以建议我在这里可能出错的地方吗?
我的代码如下:
apache-spark - 如何将具有多类的 LibSVM 文件转换为 RDD [labelPoint]
使用 org.apache.spark.mllib.util.MLUtils 包中的以下方法,将 LIBSVM 格式的二进制标记数据加载到 RDD[LabeledPoint] 中,自动确定特征数和默认分区数。
我的问题是加载具有多类标签的数据?在多类标记数据上使用此方法时……它正在转换为二进制标记数据……有没有办法将 LibSVM 格式的多类数据加载到 RDD[LabeledPoint] 中……?
同一个包中还有另一种方法,描述如下
将 LIBSVM 格式的标记数据加载到 RDD[LabeledPoint] 中,具有默认的分区数。
但是当我尝试使用它时,出现错误显示“找到 Int,需要布尔值”
apache-spark - 如何对 Spark MatrixFactorizationModel 中的所有用户产品组合进行评分?
给定一个MatrixFactorizationModel返回完整的用户产品预测矩阵的最有效方法是什么(实际上,通过某个阈值过滤以保持稀疏性)?
通过当前的 API,曾经可以将用户产品的笛卡尔积传递给 predict 函数,但在我看来,这会做很多额外的处理。
访问私有的 userFeatures、productFeatures 是否是正确的方法,如果是这样,是否有一种好方法可以利用框架的其他方面以有效的方式分配此计算?具体来说,有没有比“手动”乘以所有对 userFeature、productFeature 更好的简单方法?
python - MLlib 和 pyspark 功能
我想在Apache Spark中使用来自MLlib的areaUnderROC。我目前正在运行 Spark 1.1.0,此功能在 pyspark 中不可用,但在 scala 中可用。
是否有功能跟踪器可以跟踪将 Scala api 移植到 Python api 的进度?
我试图在官方 jira 中搜索,但找不到任何与此相对应的票号。
apache-spark - 在 Mac OS X 上安装 Spark MLLib
我正在尝试在 Mac OS X 上安装 MLLib。在 linux 上,我只需要按照这篇文章(Apache Spark -- MlLib -- Collaborative filtering)安装 gfortran。我在我的 Mac 上安装了 gfortran。但是,当我运行时:
我正进入(状态:
我不确定在我的 Mac 上成功安装 MLLib 需要遵循哪些步骤。我正在运行带有 Spark 1.1.0(预构建)的 Mac OS 10.9。