问题标签 [categorization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R:结合 apply.weekly() 按类别对数据集进行分组/拆分
介绍
我还不是 R 专家,所以请原谅我可能应该不好意思问的另一个问题。在我在 stackoverflow 上提出的另一个问题中,我得到了一些非常有用的评论,关于如何通过函数将 xts 对象的不规则每日数据聚合为每周值
apply.weekly()
。不幸的是,我没有找到像 , 或这样的函数tapply()
,它ddply()
允许按与该函数一起使用的类别进行拆分。by()
aggregate()
apply.weekly()
我的数据
这是我的示例数据集。我已经在另一个问题中发布了。出于说明目的,我也冒昧地在这里发布它:
列
“rev_sit”、“prof_sit”、“emp_nr_sit”、“inv_sit”、“ord_home_sit”、“ord_abr_sit”、“emp_cost_sit”、“usage_cost_sit”、“tax_cost_sit”、“gov_cost_sit”、“rev_exp”、“prof_exp”、“emp_nr_exp” ", "inv_exp", "ord_home_exp","ord_abr_exp", "emp_cost_exp", "usage_cost_exp","tax_cost_exp","gov_cost_exp",
参考调查中的问题。有“1”、“2”和“3”三个回答可能性代码。
列
“土地”,“纳斯”
是分别具有 16 个和 8 个独特因素的类别。
我的目标 我的目标是针对“nace”和“land”中的类别因素的每个组合,每周计算“1”、“2”和“3”的出现次数。我的想法是预先为每个回答可能性 {1,2,3} 创建二进制向量(example_1,example_2,example_2),然后应用类似的东西:
但这不适用于ddply
,aggregate
等by
。
我的目标
我最初的非专业工作不是创建时间序列,而是创建一个日期向量example$date
,其中给定时间列编码为每周一次%V
,然后使用,即:
对于上面显示的二十个问题中的每一个,我当然会这样做。然后我得到例如example_1:
第 1 周,nace1.land1,nace1.land2,nace1.land3,...,nace1.land16,nace2.land1,...,nace8.land16 第 2 周,nace1.land1,nace1.land2,nace1.land3,..., nace1.land16, nace2.land1,..,nace8.land16 ... ...weekn, nace1.land1, nace1.land2, nace1.land3, ..., nace1.land16, nace2.land1,..,nace8 .land16
我必须对 2 (example_2) 和 3 (example_3) 做同样的事情,这对于 20 个问题中的每一个问题都会产生所有 16*8*3*20=7680 列。这种极端情况,另外使用这种方法,产品不是时间序列,因此不能按周正确排序。
概括
所以任何人都可以教我或给我一个提示,如何将函数与函数、、、、等函数apply.weekly()
结合使用tapply()
,或任何其他方法来实现如上所述的分组。每一个提示都非常感谢。我已经很沮丧地考虑放弃我的 R 实验并改回 stata,其中很多东西都更加直观,等等......但不要理解我的错误:我很想学习所以请帮助我!ddply()
by()
split()
unstack()
collapse()
by()
algorithm - 用于对食谱进行编程分类的算法
我对基于配方的各种属性的统计分析以编程方式对配方进行分类感兴趣。换句话说,我想将食谱分类为Breakfast
、Lunch
或Dinner
没有Dessert
任何用户输入。
我可用的属性是:
- 食谱标题(如鸡肉沙拉)
- 配方描述(描述配方的任意文本)
- 烹饪方法(准备这个食谱的步骤)
- 准备和烹饪时间
- 配方中的每种成分及其数量
好消息是我有一个样本集,其中包含大约 10,000 个已经分类的食谱,我可以使用这些数据来教授我的算法。我的想法是寻找模式,比如糖浆这个词在统计上出现在早餐食谱中的频率是否更高,或者任何需要超过1 杯糖的食谱有 90% 的可能性是甜点。我想如果我从多个维度分析配方,然后适当调整权重,我可以得到相当准确的东西。
在解决这个问题时,有哪些好的算法可以研究?像 k-NN 这样的东西会有所帮助,还是有更适合这项任务的东西?
python - 概念 - 如何在 Python 中构建二维词频矩阵?
我正在尝试练习对文本进行分类的逻辑回归技术,并且我想以 apxn 矩阵的形式构建数据集,p 行用于播放,n 列用于唯一单词。我已经有一个文本可以使用,我只需要计算其中的单词。
跟踪哪个单词出现在哪个剧本中很重要,因此对于给定的剧本,我已经能够创建一个 Python 字典来记录独特的单词。我不知道该怎么做是将这些字典组合起来,例如
可以合并生成矩阵
为清楚起见,我创建了一个示例,其中每个戏剧仅由独特的单词组成 - 自然在现实中这根本不是真的。
有人如何从这些字典中构建这个矩阵?从其他地方开始会更容易吗?
dns - 域名分类API
我需要将域分类为不同的类别,以提供域名的最佳使用。就像将“gamez.com”归类为游戏门户一样。有没有像Sedo那样提供域名分类的服务?
tags - 您如何在 Plone 中全局更改标签?
Plone 具有使用标签和标签 cloub 对内容进行整洁的分类功能。我想全局更改标签的名称。相反,我必须找到每一页并以这种方式进行更改。有没有更简单的方法来重命名标签并将其应用于使用它的任何地方?我们正在使用 Plone 4.1。
php - 朴素贝叶斯 python - php - javascript(节点)
我正在尝试从团购网站创建数据提取器算法,以构建交易聚合器。首先我需要一个算法来提取标题、价格、折扣、图像、坐标。
我有图像、折扣和坐标的解决方案,但对于标题和类别识别,我需要创建一个朴素贝叶斯算法。什么是最好的语言来做到这一点:php?Python?js?节点.js?
我需要什么来创建算法?
有例子的模型?等等。我给出了 100 个标题,然后给出了一些网站的所有网页内容,脚本可以识别什么句子是标题?
所以我不需要一个字。我需要一个句子,而那个句子有时<h1> - <h2>
是其他的。
r - 从 r 中的现有变量创建新的变量类别
这是数据:
我想创建新的类别变量,如果任何行的值相等,那将是同一类别。因此逐行比较(所有可能的需要完成)。
例如 mydata[1,] 和 mydata[2,] 相等,因此它们在新变量类别中将具有相同的值,例如 1。在我打算做的事情中,这里有一个重要的观点。var1,var2的顺序可以是任意的,表示[var1,var2]的[A,B]与[B,A]相同
对不起,我无法解决的简单问题。
编辑:预期输出
tfs - 在 TFS 2010/2012 中,您如何对错误进行分类?
在 TFS(至少 2010 年及更高版本)中,我们有迭代的概念,它似乎应该有助于分配工作(我们在 1.0 版中做什么,1.1 版计划做什么以及积压工作)。我不得不提到我一直在研究 TFS2012 的 Scrumm 模板。
现在,您如何按产品版本对错误进行分类?例如,假设我们有一个产品,v1.0 和 v2.0 在野外,v3.0 在开发中。
现在,我们在 v1.0 中发现了一个 bug,结果发现 v2.0 和 v3.0 也包含这个 bug。
代码方面,我们将纠正 dev 中的错误,然后将其合并到 v1.1 和 v2.1,这样我们当前的用户就不会对他们的版本感到冷漠(因为我们不能总是强制升级到最新版本) .
在 TFS 中创建错误时,我们可以选择指示迭代路径。但是我们只能使用一次迭代,而我们需要能够声明该错误在所有三个版本中都存在,并在合并发生时将其标记为独立更正。
有什么方法可以支持在 TFS 中的这种工作方式,还是我看错了?
machine-learning - 计算文档分类的 IDF(逆文档频率)
我对在文档分类中计算 IDF(逆文档频率)有疑问。我有不止一个类别,其中包含多个用于培训的文档。我正在使用以下公式计算文档中每个术语的 IDF:
我的问题是:
- “语料库中的文档总数”是什么意思?文档是来自当前类别还是来自所有可用类别?
- “文档匹配项的数量”是什么意思?匹配文档的术语是来自当前类别还是来自所有可用类别?
ruby-on-rails - gmaps4rails - 对标记列表进行分类
有没有办法在侧边栏中对标记列表进行分类?例如人员、地点、公交车站等的列表。我想单独添加列表。我希望我能很好地描述问题。