问题标签 [training-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
9248 浏览

opencv - 在哪里可以获得用于 haar 训练的背景样本图像?

我需要收集样本图像(负图像,也称为背景图像)以使用 opencv 进行 haar 训练。上面写着我需要很多。大约 5000 或 10000。你知道从哪里得到它们吗?

0 投票
3 回答
3805 浏览

neural-network - 模式识别训练(神经网络)

你如何训练神经网络进行模式识别?例如图片中的人脸识别,你将如何定义输出神经元?(例如,如何准确检测人脸在哪里,而不仅仅是说相机中有一张脸)。另外,如何检测多个人脸和不同大小的人脸?

如果有人能给我指点,那就太好了

干杯!

0 投票
6 回答
59275 浏览

machine-learning - 公开可用的垃圾邮件过滤器训练集

我是机器学习的新手,对于我的第一个项目,我想编写一个朴素贝叶斯垃圾邮件过滤器。我想知道是否有任何公开可用的标记为垃圾邮件/非垃圾邮件的训练集,最好是纯文本而不是关系数据库的转储(除非他们漂亮地打印那些?)。

我知道存在这样一个公开可用的数据库,用于其他类型的文本分类,特别是新闻文章文本。我只是无法为电子邮件找到相同的东西。

0 投票
2 回答
427 浏览

ruby-on-rails - 基于位置的社交网络推荐系统的训练数据

我目前正在 Ruby on Rails 中开发基于位置的社交网络。我还想包括一个推荐系统。为了测试这个建议的算法,我需要一些真实的、匿名的训练数据。我从Netflix Prize中找到了数据,但它们只包括 .

我正在搜索包含以下内容的数据

  • 用户
  • 友谊
  • 地点或场所
  • 签到(如在foursquare)

有人知道此类数据的良好来源吗?还是一种经过验证的算法来生成这些数据?还是有其他想法?

0 投票
3 回答
2340 浏览

text - Twitter 主观性训练集

我需要一种可靠且准确的方法来将推文过滤为主观或客观。换句话说,我需要使用训练集在 Weka 之类的东西中构建一个过滤器。

是否有任何可用的训练集可用作 Twitter 消息或其他可转移域的主观/客观分类器?

0 投票
1 回答
322 浏览

java - 有一个实体识别器分类器算法不需要整个文本来训练数据吗?

我想识别我拥有的文本上的一些实体,我发现了很多算法(NaiveBayes、隐藏马尔可夫模型、条件随机场等),但似乎几乎所有这些都需要大量的训练数据来对实体进行分类。

我想知道是否有一些算法可以在没有训练数据中的文本的情况下识别,但可能只有代表我想要识别的数据的单词,或者可能是一些字符串模式,或者其他方式。

我唯一要避免的是必须将大量文本作为训练数据。

0 投票
6 回答
42600 浏览

nlp - 情绪分析的训练数据

我在哪里可以获得已被归类为企业领域情绪正面/负面的文档语料库?我想要为公司提供评论的大量文档,例如分析师和媒体提供的公司评论。

我发现有产品和电影评论的语料库。是否有与商业语言相匹配的商业领域的语料库,包括对公司的评论?

0 投票
2 回答
2061 浏览

ocr - 向 Tesseract OCR 引擎添加 Blackletter 字体支持

我正在努力让林肯字体在 Tesseract 中工作,我得到的结果很糟糕,即使在经历了极其复杂的训练过程之后。

这就是字体的样子,所以是的,这有点棘手:

林肯样品

我已经仔细制作了一张训练图像,然后用它制作了一个盒子文件。训练图像在这里(25MB!)。图像为 300 DPI,具有代表性的字符很好地垂直和水平间隔。

我为训练图像制作了一个盒子文件,它工作正常。我已经使用box file editor验证了它是正确的。

我拿了这个盒子文件/tif 文件,并用它来创建训练数据。我对Tesseract 提供的30 个左右的其他示例图像/字体也做了同样的事情。

我创建了 unicharset 文件。

我创建了一个 font_properties 文件。网站上没有关于何时应该使用 fraktur 的指导。所以我已经尝试过这两种方式(林肯的fraktur):

这样(关闭):

最后,我在有和没有字典文件的情况下都试过了。当我使用字典文件时,它们是来自我的搜索引擎 Sphinx 的 wordmap,它们有大约 15K 的常用词和大约 20K 的不常用词。

在所有情况下,当我尝试对这个文件的前几行 (3MB)进行 OCR 时,质量都很糟糕。而不是得到:

我得到:

为什么?

0 投票
2 回答
368 浏览

nlp - 分类情绪数据的来源?

我希望用一些以前没有使用过的新数据源来训练一个朴素的贝叶斯。我已经查看了 IMDB 评论的 Lee & Pang 语料库和 MPQA 意见语料库。我正在寻找符合以下标准的新 Web 服务。

  1. 易于分类 - 必须有喜欢/不喜欢或 5 星评级
  2. 一应俱全
  3. 与新材料有关(不如前两个重要)

以下是我自己提出的一些示例。

  • Etsy API
  • 烂番茄 API
  • Yelp API

任何其他建议将不胜感激 =)

0 投票
1 回答
584 浏览

model - 使用 libsvm 进行回归:为什么生成的模型包含很多行而不仅仅是一行

我正在使用 libsvm(一个解决回归问题的库)从训练集中生成模型。

生成的模型包含很多行,但我希望它只包含代表整个生成模型的一行。我认为每一行对应一个模型。

例如:如果我使用关于一个用户的数据作为训练集,比如说关于用户的 10 行,那么我希望在生成的模型中有一行代表这个用户的模型。但事实并非如此。

为什么?或者我应该如何解释生成行的平均值?