问题标签 [categorization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
866 浏览

classification - 使用 lingpipe 进行分类

作为我的学术研究项目的一部分,我正在尝试构建一个应用程序,其中我将从网络检索到一组 url。任务是将这些 url 中的每一个分类到某个类别。

例如,以下 URL 与板球有关http://www.espncricinfo.com/icc_cricket_worldcup2011/content/current/story/499851.html 如果我将此特定 URL 提供给分类器,它应该将输出类别指定为“体育” .

为此,我正在使用 lingpipe 分类器。我已经按照分类教程运行了演示文件夹中的演示。我已经下载了从以下链接下载的 20 个新闻数据集。 http://people.csail.mit.edu/people/jrennie/20Newsgroups

后来,我将训练样本量从 20 减少到 8,并运行了分类演示。它可以成功地训练数据,也可以测试数据。

但问题是,每次我想测试文档的类别时,是否需要训练分类器?如果我对文档进行分类,训练和测试数据都需要 4 分钟。

我可以存储一次训练数据并执行多次分类吗?

0 投票
3 回答
1297 浏览

c# - 从坐标列表中提取运动数据

我有一系列带时间戳的坐标(X、Y 和 Z,单位为 mm)的 CSV 文件。从它们中提取运动数据的最简单方法是什么?

可衡量的

我想提取的信息包括以下内容:

  1. 换向次数
  2. 第一个和最后一个动作的初始加速度
  3. ...以及这些运动的方位(角度)
  4. 非静止时的平均速度

理想情况下,我最终希望能够对运动模式进行分类,因此任何可以提出这样做​​方法的人都可以获得奖励积分。让我感到震惊的是,我可以做到这一点的一种方法是从坐标生成运动的图片/视频,并要求人类对其进行分类 - 关于我如何做到这一点的建议非常受欢迎。

噪音

一个复杂的事实是读数被噪音污染。为了克服这一点,每个录音都以至少 20 秒的静止开始,这可以作为一种“噪音分布”。我不确定如何实现这一点。

细节

如果有帮助,记录的动作是人手在简单抓取任务期间的动作。数据是使用附在手腕上的磁性运动跟踪器生成的。另外,我使用的是 C#,但我猜数学与语言无关。

编辑

赏金

对于赏金,我真的很想看到一些(伪)代码示例。

0 投票
1 回答
283 浏览

java - 如何在维基百科中的单词中获取类别?

我有关于在单词中提取类别的问题。我在一个集群中有几个词(“apple”、“iMac”、“snowleopard”),我想在这些词中检索类别。

("apple","iMac","snowleopard") --> "Mac OS X"

我尝试过使用 WordNet 等词汇数据库,但它不起作用。我一直在寻找其他方法,发现维基百科可能会有所帮助。任何用于维基百科的 Java 库?以及如何完成我上面提到的此类任务?谢谢

0 投票
1 回答
1258 浏览

ruby - Rails 中的垃圾邮件预防

我有一个 Rails 应用程序,用户可以在其中向其他用户发送消息。问题是,这种网站会吸引许多发送虚假信息的垃圾邮件发送者。

我已经知道一些垃圾邮件服务,例如 Akismet(通过rakismet)和 Defensio(通过Defender)。这些问题在于,它们似乎没有考虑用户已经发送的消息。我在我的网站上看到的垃圾邮件类型是用户向许多其他用户发送相同(或非常相似)的消息。因此,我希望能够与至少少数过去的邮件进行比较,以确保它们足够不同,不会被视为垃圾邮件。

到目前为止,我遇到的最好的事情是Text::Levenshtein 距离实现,它计算两个字符串之间的差异数。我想我可以计算出差异数除以字符串长度,如果它高于某个阈值,那么它就不会被视为垃圾邮件。

我遇到的另一件事是Classifier::Bayes,它可以最好地猜测某物属于哪个类别。还在琢磨这个。

我觉得我可能只是在寻找错误的地方,也许已经有更好的解决方案来解决这样的问题。也许我正在寻找错误的词来找到更有用的东西。

0 投票
1 回答
208 浏览

algorithm - Automatically linking categories to each other when categorizing text

I've been working on a project to data-mine a large amount of short texts and categorize these based on a pre-existing large list of category names. To do this I had to figure out how to first create a good text corpus from the data in order to have reference documents for the categorization and then to get the quality of the categorization up to an acceptable level. This part I am finished with (luckily categorizing text is something that a lot of people have done a lot of research into).

Now my next problem, I'm trying to figure out a good way of linking the various categories to each other computationally. That is to say, to figure out how to recognize that "cars" and "chevrolet" are related in some way. So far I've tried utilizing the N-Gram categorization methods described by, among others, Cavnar and Trenkle for comparing the various reference documents I've created for each category. Unfortunately it seems the best I've been able to get out of that method is approximately 50-55% correct relations between categories, and those are the best relations, overall it's around 30-35% which is miserably low.

I've tried a couple of other approaches as well but I've been unable to get much higher than 40% relevant links (an example of a non-relevant relation would be the category "trucks" being strongly related to the category "makeup" or the category "diapers" while weakly (or not at all) related to "chevy").

Now, I've tried looking for better methods for doing this but it just seems like I can't find any (yet I know others have done better than I have). Does anyone have any experience with this? Any tips on usable methods for creating relations between categories? Right now the methods I've tried either don't give enough relations at all or contain way too high a percentage of junk relations.

0 投票
1 回答
652 浏览

php - 如何自动将给定的文本分配给不同的类别?

我正在做这个项目,其中我们有一些类别,例如

美容活动购物

类别被标记,例如一些标记是:

标签有一个顺序,表示它们与类别的相关性,例如理发在美容中排在首位,因为其中包含理发一词的文本最有可能与美容相关,

如您所见,“私人教练”标签属于多个类别,因此如果文本中包含私人教练,则它可能与美容或活动有关。

我还记录了每个标签在文本中被找到的次数,因此每个标签中都有一个找到的值。

现在,当要处理新文本时,我会搜索其中的所有标签,并查看它们在给定文本中出现了多少次。示例文本的结果将如下所示:

看到这里,我们意识到文本应该属于美。

现在这是我的问题: 1- 我们如何通过给定的输入以及与类别相关联的标签数组以编程方式确定该文本属于哪个类别?这是一个好主意吗?有没有更优雅的方式来做到这一点?

2-这是这样做的好方法还是有更好的算法?我在想,在处理这个问题时,可能会出现类似 lucene 或更智能的算法。

0 投票
1 回答
413 浏览

php - Magento 类别/子类别作为页面

我正在尝试使用类别及其子类别来呈现自定义页面。为此,我尝试了以下方法:

现在我进入我的代码库并执行以下操作:

当我转到:host.com/category/subcategory 我得到一个 404 ......我错过了什么?TIA。

我希望 view.phtml 能够运行。

0 投票
0 回答
167 浏览

nlp - Lingpipe 文本分类中的默认分类

我在应用程序中使用了 Lingpipe 的文本分类功能。分类器工作得很好,但是,我注意到它不支持“默认类别”。也就是说,如果文本不符合指定类别,则文本不可能被归类为“中性”。有没有办法我可以做到这一点?也许如果我确定分数的阈值。

我很感激任何建议。谢谢!

0 投票
1 回答
546 浏览

text - 文本分类分类指针

我正在尝试开发一个非常简单的程序,用于使用各种算法对文档进行分类和分类。我的问题是,因为我是初学者,所以我找不到好的文章或网站来获取有关如何开始使用它的简单教程。我已经阅读了很少的资源,并且学到了很多东西,但是我阅读的每个文档、站点等都使用不同的技术,它以不同的方式分析问题,提出不同的解决方案等,所以我感到困惑。为了开始实际实施,您可以指出我的任何好的资源吗?

此外,我正在寻找实际的测试数据,特别是分类的文档,以便我可以“提供”我的算法。任何帮助表示赞赏。谢谢。

0 投票
1 回答
422 浏览

ruby-on-rails - has_many :through 不会保存到数据库

我通过分类有一个项目和类别的关联:

物品/新品:

分类_控制器

Items_controller

问题是当我点击保存(创建项目)时,我检查分类表并检查控制台,保存的项目仍然没有 category_id。因此,新项目及其属性(名称、描述、价格)被正确保存到数据库,但不是类别。它不会保存到数据库。

有任何想法吗?(Rails 新手)谢谢