问题标签 [categorization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
327 浏览

algorithm - 对超集进行分区并获取每个分区的原始集列表

介绍

在尝试对图中的节点进行一些分类(将呈现不同)时,我发现自己面临以下问题:

问题

给定一个元素的超集及其S = {0, 1, ... M}许多不相交的子集,其中,找出集合的划分的最佳算法是什么?nT_i0 <= i < nSP

P = S是原始超集的所有不相交分区的并集,其中,对于所有元素,每个“原始”集合中的“父”列表都相同。P_jS0 <= j < Mx in P_jxT_i

例子

所以所有P_j的 s 都是:

问题

  1. python 包中有哪些好的函数/类来计算所有P_js及其“父母”列表,理想情况下仅限于numpyand scipy?也许已经有一个功能可以做到这一点
  2. 找到这些分区以及每个分区P_j的“父母”列表的最佳算法是什么?让我们注意T_0 = S

我认为蛮力方法是生成所有 2 个集合的组合T并将它们分成最多 3 个不相交的集合,这些集合将被添加回T集合池,然后重复该过程直到所有结果Ts 不相交,因此我们已经得到了我们的答案——P集合。一个小问题可能是在途中缓存所有“父母”。

我怀疑可以使用动态编程方法来优化算法。

注意:我很想用乳胶(通过MathJax)编写数学部分,但不幸的是这没有被激活:-(

0 投票
0 回答
55 浏览

text - 用于从博客条目中分类性别的文本分类

我正在研究“文本分析”。现在我有一套语料库,我知道每个文件作者的性别。那么,如何为分类器(贝叶斯、SVM...)构建特征向量。或者你能为我推荐一些关于这个主题的有用文件吗?谢谢!

0 投票
1 回答
66 浏览

ruby - 使用 Rails 3 配置分类

我希望能够为我的用户分配类别(最多 2 个,允许 1 个)。我希望此用户的任何帖子仅从同一类别列表中分配一个类别(在我的应用程序中称为职业)。

目前,我已经对其进行了配置,以便我可以为每个分配 1,在用户、帖子和专业模型之间具有简单的 belongs_to 和 has_many 关联。这适用于帖子,因为它只需要 1 个专业分配,但对于用户来说,它限制了 2 个的能力。

用户的视图有两个下拉列表,由专业中的项目填充。我可以选择两种不同的职业,但只有一种保留了该职业的价值,我希望它保留这两种职业,或者如果只选择一种,则只接受一种。我的主要限制是,在用户数据库中,只有一个职业列引用了职业 ID。无法复制职业栏,如何设置才能添加第二个职业栏?

或者,我应该如何改变我的数据库设计和模型来完成这个?

用户.rb:

post.rb:

职业.rb:

0 投票
1 回答
509 浏览

umbraco - Umbraco - 分类的终极选择器

我正在为 umbraco 做一个简单的项目,我需要一个类别部分。这就是我开始为类别创建页面的原因。在网站中,我使用终极选择器来选择类别。到目前为止,一切都很好,我可以看到我在网站页面中选择的类别。

我的问题是在时尚类别页面下列出所有时尚选择的网站。我找不到任何例子。如果你能在这件事上帮助我,我会很高兴。

0 投票
0 回答
223 浏览

classification - Weka动态句子分类

您能否给我一些提示,我是否(以及如何)可以在 WEKA 中做到这一点?

我有很多句子,然后我收到一个必须分类的新句子。

现有类别是在现有句子的基础上产生的。首先,如何创建这些类别?

然后,当新句子出现时,我如何将其归类为先前创建的类别之一(不是新的类别)。

0 投票
1 回答
1027 浏览

database - 一种更智能的按关键字分类的方法?

我们的网站有用户生成的内容,用户可以使用标签对其内容进行分类。为了使搜索内容更容易,我们正在考虑创建“兴趣”类别,例如:

实现此目的的一种方法是将关键字与每个兴趣类别相关联。因此,如果用户点击爱好,系统将搜索我们与爱好相关联的关键字,例如:

然而,这种方法似乎受到限制,因为用户可以在身体上发布带有“性感”字样的热棒图片,而在我们的系统中,“性感”一词与两个兴趣类别相关联:“性”和“时尚与美容” .

关于如何使这种方法更智能的任何建议?或者,关于公司如何实施这样的事情的建议/建议?

0 投票
1 回答
1933 浏览

mediawiki - mediaWiki 类别与用于组织内容的子页面

出于搜索能力和清晰度的原因,我想创建一个内容可以并且因此可能应该按类别明确分开的 wiki。

让我们以一个 wiki 作为随机示例,其中每个站点都描述了电影导演在给定时间点的情况。我将有一个组织逻辑如下的页面:Year > Month > director's situation,而且Year > Month > Day > director's situationYear > director's situation

1976 > 九月 > 伍迪艾伦:艾伦先生正在拍摄安妮霍尔。

1977 > 伍迪艾伦:艾伦先生在那一年变成了 x。

1979 > 二月 > 伍迪艾伦:艾伦先生正在切割曼哈顿。

好的,这是一个愚蠢的例子,但它明白了这一点。所以现在每个时间框架都有不同内容的伍迪艾伦页面。我希望实现良好的搜索能力,因为我的实际应用程序中的标题不会像名称那样明显,并且不同页面的唯一标识。我的问题是,鉴于内容的明确分类,在 mediaWiki 中实现这一目标的最佳策略是什么?

  1. 创建类别层次结构(例如,年 > 月 > 日:导演)和匹配的子页面层次结构(年/月/日/导演)。
  2. 创建类别的层次结构,然后只有一个页面标题,如“导演,年,月日”
  3. 只是用子页面组织一切。
  4. ……

我会选择#1。类别的层次结构允许干净的搜索+incategory:"Category Name",子页面的层次结构允许更漂亮的页面标题(特别是如果类别具有长名称)。这个解决方案有什么陷阱吗?

0 投票
4 回答
5171 浏览

java - 文本分类分类器

有人知道好的开源文本分类模型吗?我知道 Stanford Classifier、Weka、Mallet 等,但它们都需要培训。

我需要将新闻文章分类为体育/政治/健康/游戏/等。有没有预先训练好的模型?

Alchemy、OpenCalais 等不是选项。我需要开源工具(最好是 Java)。

0 投票
1 回答
192 浏览

regex - 无法在 SAS Content Categorization Studio 中使用两个正则表达式

我在 SAS Content Categorization Studio 工作。我试图获得两个概念,每个概念都包含一个正则表达式,以返回多个匹配项。一个应该找到日期,另一个是特别格式化的数字。

只要应该查找日期(前者)的正则表达式处于活动状态或未注释掉,则应该找到格式化数字(后者)的正则表达式不会返回任何命中。一旦我注释掉日期的正则表达式,后者就会继续工作。它们似乎是相互排斥的。谁能告诉我我做错了什么?

0 投票
2 回答
778 浏览

sql - 如何在 SQL/PLSQL 的一个语句中对多个列进行分类

我有一个包含 20 列的表格,我喜欢将其分类;

我不喜欢使用 20 case ... when 语句。任何知道如何更动态和有效地做到这一点的人?可以是 SQL 或 PL/SQL。

我尝试了一些 PL/SQL,但没有看到将列名用作变量的简单方法。

非常感谢。

弗兰斯