问题标签 [data-science]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 R 脚本上编码而不是使用它的函数会更好吗?
我想问在 r 脚本中使用循环函数而不是使用它的库 cran 更好吗?就像,我可以编写规范化函数,但我应该为此使用缩放函数吗?
我是数据科学的新手。
label - 获取torch中1000维输出张量中特定索引的ImageNet标签
对于带有猫图像的 ResNet 模型的 Facebook 实现,我有前向传递的输出张量。那是一个具有分类概率的 1000 维张量。使用torch.topk我可以获得输出张量中的前 5 个概率及其索引。现在我想查看那些最可能的索引的人类可读标签。
我在网上搜索了标签列表(显然也称为 sysnets),只发现了这个:http: //image-net.org/challenges/LSVRC/2015/browse-synsets
我使用行号作为标签索引将这些标签放在一个文件中,当我使用两个不同的猫图像运行网络时,我得到“螺丝刀”作为两者的最高猜测。如果我按字母顺序对标签文件进行排序,我会得到两者的“电影”。
这似乎是将索引转换为标签的问题,对吧?所以......问题是: 如何正确地将网络输出张量中的索引映射到 Imagenet 标签?
python - 使用 python pandas 对大型 csv 文件进行汇总统计
假设我有 10gb 的 csv 文件,我想使用 DataFrame describe 方法获取文件的摘要统计信息。
在这种情况下,首先我需要为所有 10gb csv 数据创建一个 DataFrame。
这是否意味着所有 10gb 都将被加载到内存中并计算统计信息?
machine-learning - holts-winter 中季节性组件的初始化
进行预测。我想知道我们如何初始化季节性分量我们有等式
现在说我的 m 值为 365(因为我的数据是一年中 365 天的每日数据)。为了确定 t=1 的季节性分量,我需要时间 t = -365 的季节性分量的值。同样,我需要 t=-364、t=-363 等的季节性分量。如何预先确定这些值...
machine-learning - “朴素”贝叶斯在机器学习中意味着什么?
“朴素”贝叶斯在机器学习中意味着什么?
python - 用于科学 3D 绘图的 Mayavi 替代方案
我需要绘制一个在3D 网格中构造的标量场,如下所示:
我想在 Python 中这样做,因为我用这种语言模拟了许多数据集,并且我希望能够在我对模拟参数执行敏感度时快速可视化它们。
Mayavi 似乎为科学 3D 绘图提供了相当标准的例程。然而,当涉及到在出版物中传达这些图时,非常基本的图自定义不可用,例如轴上的主要和次要刻度。此外,那些受支持的非常基本的功能迄今为止甚至无法正常工作(例如,请参阅字体大小错误和此处的示例)。
Python中是否有任何体面且易于使用的科学3D绘图库?我曾尝试学习 vtk,但网站示例似乎已过时(例如无法运行的体积渲染示例,我尝试编辑多行代码以使其在没有运气的情况下运行),其他人似乎同意缺少文档。
通过体面的科学绘图库,我的意思是:
- 允许自定义轴、标签、标题等中的字体。
- 可以编辑轴刻度间距(至少带有主要刻度)。
- 可以添加颜色条
- 有文档。
apache-spark - Spark 线性回归特征哈希
我正在尝试使用 Spark 的 LinearRegressionWithSGD 来按国家和设备预测商品的价格。在查看了 Spark MLLib 的特征提取部分之后,我有点不清楚我应该如何散列这些特征。一个示例记录是:
我尝试了几种散列技术(例如 MurmurHash),但它们似乎都获得了垃圾权重(例如 NAN、PositiveInfinity 等)或趋向于 10^200+ 的权重。有没有人在 Spark MLLib 中成功散列标记的特征?
python - 数据科学的灵丹妙药
我最近开始使用 Elixir,一些模式让我想起了 Python,它广泛用于数据科学项目。例如列表推导或匿名函数。
考虑到 Elixir 的高性能以及运行多个进程和处理异步任务的能力,我觉得它非常适合数据科学项目。
我错过了一点吗?有人有这方面的经验吗?
hadoop - Apache PIG 入门,需要脚本方面的帮助
我昨天开始使用 Pig 来获得工作机会,我以前从未使用过它,并且必须为下周生产一些东西。我还没有设法安装它,但正在努力......
同时,我尝试学习使用 Pig Latin,并制作了一些东西,但我无法测试它。
我正在使用的数据格式为 user_name|Country|movie|director,每次用户观看电影时,文件中都会有一个新条目,一个文件代表 1 天。
我想做的是创建一个“用户资料”,说明用户的前 5 部电影、前 5 名导演以及用户每天观看的电影数量。
我编码的内容:
我的代码有什么明显的错误吗?我走的好吗?我正在尝试将此代码嵌入到 python 中(我已经编写了 python 部分)。
另外,有没有一种简单的方法来测试我的代码?(我写了一些 txt 文件来测试,但我很难在我的电脑上安装 hadoop 和 pig(我有 Windows 7)。
非常感谢您的帮助 !
java - 对文本进行分类
我正在尝试确定给定的 URL 是否是任何类型的事件。事件是指事件,例如conference
,summit
等convention
。这是我为它准备的初步算法:
我发现了以下(查看末尾)令牌,如果它们在页面的内容中(我使用第三方库从 HTML 中查找内容),那么我将其标记为事件。当然,这并不止于此。我为每个令牌分配权重,权重表示 - 这个令牌可以说明给定 url 是一个事件的强度。例如,如果我conference
在内容中找到,它会更有信心告诉我这是一个事件,而不是registration
- 这也可能经常出现在其他类型的文章中。
所以,我计算每篇文章的分数如下:总和(内容中令牌的频率*其权重)。然后如果这个分数是> EVENT_THRESHOLD
那么我将文章标记为事件。这种方法的问题是:如果我得到,假设出现 20 次“事件”(信心不足,即权重低),分数会跳跃并打破EVENT_THRESHOLD
并将文章标记为事件。有没有更好的方法来实现这一点?我希望我不会重新发明轮子。谢谢。PS我不是数据科学人:(
活动代币: