问题标签 [categorization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
508 浏览

vocabulary - 标签的类别

我正在启动一个公益项目,它是世界上最大的琵琶音乐收藏的网络界面,从几个角度来看,它都是一个具有挑战性的收藏。这些作品大部分从 1400 年到 1600 年,但它们的范围从 1200 年代中期到现在。毋庸置疑,这些作品的分类方式和归属者存在巨大差异。很明显,任何类型的严格的、DB 强制的层次结构都不适用于这个集合,所以我的想法转向标签。

但并非所有标签都相同。我将有代表一个人/角色(作曲家、翻译者、入座者等)的标签,代表作品所针对的乐器的标签,以及代表作品如何被任何一个分类的标签几个世纪以来使用了六种不同的分类系统。

我们将使用半受控的标签词汇来防止标签泛滥(例如 del.icio.us),但我想将标签视为属于不同的组。当编辑器进行仪器标记等时,不应提供人员标记。

有没有人做过这样的事情?我可以想到几种方法来做到这一点,但如果有一个做得很好的现有系统,它将节省我实施/调试的时间。

FWIW:这是一个 Django 系统,我正在考虑从 Django 标记开始,然后从那里进行黑客攻击,可能会添加一个类别字段或......

0 投票
2 回答
135 浏览

oop - 关于分类的建模问题。分型还是不分型?

我需要一些关于如何为这个简单的分类(?)示例建模的建议:
我有一个产品。一个产品可以有不同的类型,例如 ProductType 1、ProductType 2 和 ProductType 3。所有产品都有一个部件号和一个名称。它们的不同之处在于它们的价格计算方式。

  • 类型 1 的产品价格取决于产品的数量。所以如果我有 5 个产品,价格是 $x。如果我有 20 个产品,价格是 $y,以此类推。
  • 类型 2 的产品价格取决于每个产品的重量。如果重量为 5 公斤,则价格为 $x,以此类推。
  • 类型 3 中的产品具有简单的价格,例如每件产品的价格为 $x。

在我看来,每个“价格结构”都需要有一个专用的表/类。然后,产品将参考其价格结构,具体取决于产品的类型。您是只创建一个“产品类型”表并在 Product 类上有一个名为 Type 的属性,还是使用泛化,因此 Product 1/2/3 是 Product 的子类型?将有 5 种不同的价格结构,并且价格的计算方式因每种类型而异。因此,计算订单总价的逻辑取决于每种产品类型。

你能给我一些关于如何以最佳方式建模的建议吗?如果我选择 Product 类上有一个 Type 属性的方法,我想我会在我的代码中得到很多 if-else 语句。如果我选择对它们进行子类化,每个类都可以负责计算正确的价格,或者它被要求做的任何事情。

0 投票
4 回答
2548 浏览

database-design - 分面搜索的数据库结构

我正在创建一个电子商务网站,该网站需要一个多面搜索工具,以便客户可以通过与ebuyer.comNewegg.com相同风格的类别和分类来缩小产品搜索范围(见左侧菜单)。

我最初直接设计了一个类似于 EAV 结构的数据库(我当时不知道这是什么),这最初看起来很理想,因为我可以创建无限的类别、子类别和其他产品分类(即颜色、客户可用于查找特定产品的大小、收件人)。然而,当我开始尝试使用AND条件创建 SQL 查询时,我意识到普通的简单查询变得更长且编写起来复杂得多。

在花了几个小时阅读了关于 SO 的各种帖子和 Google 上的文章之后,我开始意识到如果我继续使用这种方法将会是一场噩梦。

问题

ebuyer.comNewegg.com等网站是如何设计分面搜索的?

我是否错过了另一种方法,或者他们只是继续使用 EAV 结构?我希望避免像 Lucene/Solr 这样的企业解决方案。

0 投票
3 回答
2373 浏览

python - 从文本字符串中提取国家名称

我正在考虑编写一个 mashup 应用程序,该应用程序将从 subreddit 中获取提交标题,并尝试根据它们可能相关的位置将它们绘制在地图上。我还想稍后添加 Twitter 等内容。

我在计划中遇到的困难是如何从标题中检测出最有可能相关的国家。我的第一个猜测是有一个国家列表,以及它们的匹配排列(例如“English”匹配“England”等),并检查这些项目在文本中的出现。但是,这可能会很慢,并且需要我列出每个国家/地区的所有格*名称。

我正计划在 Python 中执行此操作(以便学习使用它),所以我想知道是否有 a)执行此操作的库(并且我可以从中学习)或 b)更明显的方法这?

为了让我了解我正在使用的输入类型,这里有一些示例以及我试图从中得到什么:

  • “好吧,他们不能逮捕我们所有人——向英国法律体系竖起中指(图片)”
    • 关键字:英国(英国)
  • “民意调查:维基解密阿桑奇领先时代‘年度人物’——澳大利亚人阿桑奇因公布有关伊拉克和阿富汗战争的美国秘密军事文件而成为五角大楼的眼中钉,获得了 21,736 票星期五的。”
    • 关键词:阿富汗,伊拉克,[澳大利亚](阿富汗,伊拉克,[澳大利亚])-澳大利亚很难被认为是无关紧要的,但这对我的目的来说是可以接受的
  • “对诺贝尔和平奖网站发起网络攻击。保持优雅,中国。”
    • 关键词:中国(中国)
  • “一名犹太外科医生在发现患者手臂上有纳粹纹身后,拒绝为患者进行手术并走出手术室。”
    • 关键字:- 对我而言可接受

* 这可能是用错词

0 投票
1 回答
1221 浏览

machine-learning - LibSVM 和非数值数据

我对使用 LibSVM 进行文本分类很感兴趣。您如何建议我将术语/单词转换为数字数据,以便 LibSVM 可以理解?

谢谢!

0 投票
1 回答
515 浏览

algorithm - 将一组短语分类为一组相似的短语

我有一些应用程序可以生成文本跟踪信息(日志)以记录文件。跟踪信息是典型的 printf() 样式 - 即有很多类似的日志条目(与 printf 相同的格式参数),但在格式字符串有参数的地方不同。

什么是一种算法(网址、书籍、文章……),它可以让我分析日志条目并将它们分类到几个箱/容器中,每个箱都有一个关联的格式?
本质上,我想要将原始日志条目转换为 (formatA, arg0 ... argN) 实例,其中 formatA 在许多日志条目之间共享。formatA 不必是用于生成条目的确切格式(如果这使算法更简单,则更是如此)。

我发现的大多数文献和网络信息都涉及精确匹配、最大子字符串匹配或 k 差异(k 提前已知/固定)。此外,它侧重于匹配一对(长)字符串或单个 bin 输出(所有输入中的一个匹配)。我的情况有些不同,因为我必须发现什么代表(足够好)匹配(通常是一系列不连续的字符串),然后将每个输入条目分类为发现的匹配之一。

最后,我不是在寻找完美的算法,而是在寻找简单/易于维护的东西。

谢谢!

0 投票
2 回答
190 浏览

database - 根据数据的签名对数据进行分类

假设我有一些大的数据行集合,其中行中的每个元素都是一个(键,值)对:

我希望能够运行一些计算来确定新行,与该行“最相似”的行是什么?

我能想到的为任何特定行找到“最相似”行的最直接方法是直接将所述行与所有其他行进行比较。这显然在计算上非常昂贵。

我正在寻找以下形式的解决方案。

  • 一个可以取一行并为该行生成一些导数整数的函数。这个返回的整数将是行的一种“签名”。此签名的重要属性是,如果两行非常“相似”,它们将生成非常接近的整数,如果行非常“不同”,它们将生成远距离整数。显然,如果它们是相同的行,它们将生成相同的签名。

  • 然后,我可以获取这些生成的签名,以及它们指向的行的索引,并按它们的签名对它们进行排序。我会保留这个数据结构,以便我可以快速查找。称它为数据库 B。

  • 当我有一个新行时,我想知道数据库 B 中哪个现有行最相似,我会:

    1. 为新行生成签名
    2. 对数据库 B 中的 (signature,index) 的排序列表进行二分搜索以查找壁橱匹配项
    3. 返回数据库 B 中最接近的匹配(可能是完美匹配)行。

我知道他们在这个问题上挥手致意。我的问题是我实际上并不知道生成此签名的函数是什么。我看到 Levenshtein 距离,但那些代表转换成本,而不是签名。我看到我可以尝试有损压缩,两件事可能是“可存储的”,因为它们压缩为同一件事。我正在寻找有关如何执行此操作的其他想法。

谢谢你。

0 投票
3 回答
498 浏览

python - 将书籍作者分类为小说与非小说

出于我个人的目的,我有大约 300 位不同书籍的作者(全名)。我想将此列表划分为“小说作者”和“非小说作者”。如果一个作者都写了这两个,那么大多数人都会获得投票。

我查看了 Amazon Product Search API:我可以按作者搜索(在 Python 中),但无法找到图书类别(小说与休息):

我有哪些选择?我更喜欢在 Python 中执行此操作。

0 投票
0 回答
290 浏览

xml - XML 多类别和子类别结构

什么是 XML 文档表示主题的 N 类别的最佳数据结构?我想给用户创建无限类别结束子类别的可能性,然后在这些子类别中对项目进行分组。

我知道如何在 E/R 数据库中实现它……但是在 XML 中?

0 投票
1 回答
49 浏览

iphone - iphone分类问题

我将使用这些功能制作一个简单的应用程序;

在主窗口中会有一个菜单。

当用户单击菜单项 1

应该会出现一个新的基于菜单的视图,但是当用户单击菜单项 2 时,应该会出现一个基于文本的视图。

我制作了一个基于导航的应用程序,但我无法为每个单元格连接不同的视图文件。

我怎样才能做到这一点 ?你有什么例子吗?

我的应用程序:

(可能我会使用 sqlite 作为菜单和文本的上下文。)