问题标签 [text-mining]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2510 问题

0 投票

1 回答

72 浏览

text-mining - 将正则表达式与 $ 一起使用

只是一个简单的问题，有人知道如何将正则表达式与 "\$" 一起使用吗？本质上，我想解析字符串并找出 \$ 之后的数值（例如“购买新床架可获得 50 美元的折扣”）。

text-mining

Josh Browning

2011-10-15T12:59:51.597

0 投票

3 回答

2993 浏览

algorithm - URL路径相似度/字符串相似度算法

我的问题是我需要比较 URL 路径并推断它们是否相似。下面我提供要处理的示例数据：

我试过 Levenshtein 距离来比较，但对我来说不够准确。我不需要 100% 准确的算法，但我认为 90% 及以上是必须的。

我认为我需要某种分类器，但问题是新数据的每个部分都可以包含应该分类到新未知类的路径。

你能把我引到右边吗？

谢谢

2011-10-18T14:43:24.413

0 投票

3 回答

3208 浏览

svm - 使用 LSA/SVD 进行文档分类

我正在尝试使用支持向量机 (SVM) 进行文档分类。我拥有的文件是电子邮件的集合。我有大约 3000 个文档来训练 SVM 分类器，并且有一个大约 700 个需要分类的测试文档集。

我最初使用二进制 DocumentTermMatrix 作为 SVM 训练的输入。使用测试数据进行分类的准确率约为 81%。在删除几个停用词后使用 DocumentTermMatrix。

由于我想提高这个模型的准确性，我尝试使用基于 LSA/SVD 的降维，并使用生成的降维因子作为分类模型的输入（我尝试使用原始包中的 20、50、100 和 200 个奇异值〜3000字）。在每种情况下，分类的性能都变差了。（使用 LSA/SVD 的另一个原因是为了克服具有 65 个级别的响应变量之一的记忆问题）。

有人可以就如何提高 LSA/SVD 分类的性能提供一些指导吗？我意识到这是没有任何特定数据或代码的一般问题，但希望专家提供一些关于从哪里开始调试的意见。

仅供参考，我正在使用 R 进行文本预处理（包：tm、雪球、lsa）和构建分类模型（包：kernelsvm）

谢谢你。

svm text-mining document-classification latent-semantic-indexing

2011-10-19T10:33:35.030

0 投票

4 回答

1337 浏览

java - 可以推荐哪种语言用于文本挖掘/解析？

我正在网页中进行一些文本挖掘。目前我正在使用 Java，但也许有更合适的语言来做我想做的事。

我想做的一些事情的例子：

根据字母、数字、字母数字、符号等部分（字母、数字、符号等）确定单词的字符类型（类型更多）。

根据统计数据发现停用词。

根据统计和一些逻辑发现一些语法类（动词、名词、介词、连词）。

我正在考虑使用 Prolog 和 R（我对这些语言了解不多），但我不知道它们是否适合这个，或者可能是另一种更合适的语言。

我可以使用哪个？也欢迎 Java 的优秀库。

java r prolog nlp text-mining

2011-10-25T18:32:09.717

0 投票

6 回答

39084 浏览

r - R文本文件和文本挖掘...如何加载数据

我正在使用 R 包tm，我想做一些文本挖掘。这是一个文档，被视为一袋单词。

我不了解有关如何加载文本文件和创建必要对象以开始使用诸如...等功能的文档。

所以假设这是我的文档“这是对 R 负载的测试”

如何加载数据以进行文本处理并创建对象 x？

r load text-mining tm

user959129

2011-10-28T09:20:19.557

0 投票

1 回答

316 浏览

r - 我可以在 R 中执行广义迭代缩放吗？

我希望将我们自己开发的各种机器学习算法平台从 C# 移植到更强大的数据挖掘平台，例如 R。虽然很明显 R 在许多类型的数据挖掘任务中都很出色，但我不清楚是否它可以用于文本分类。

具体来说，我们从文本中提取二元组列表，然后将其分类为 15 个不同类别之一，例如：

Bigram 列表：珠宝、书籍、手表、鞋子、百货商店 -> 类别：购物

我们既想在 R 中训练模型，又想连接到数据库以更大规模地执行此操作。

可以在R中完成吗？

r data-mining text-mining

2011-11-02T02:30:54.923

0 投票

3 回答

9479 浏览

nlp - 文本挖掘的基本算法是什么？

我正在尝试做一个从网络上挖掘一些文本的应用程序，但我不确定执行文本挖掘的最佳方法是什么。

我想对这个问题了解什么是最常用的技术/算法来执行文本挖掘和在文档中进行一些信息检索（不用于索引）。

nlp information-retrieval text-mining

2011-11-05T01:43:45.440

0 投票

1 回答

893 浏览

r - 包 tm。kmeans的问题

我有一个关于 R 中 k-means 聚类的问题。实际上我正在根据这篇文章做所有事情。一切都基于 tm 包中的示例，因此不需要导入数据。acq 包含 50 个文档和粗略的 20 个文档。

我实际上想创建交叉协议矩阵。但是这篇文章是在 2008 年写的，从那以后发生了很多变化。Data 功能仅在 RSurvey 包中可用，但我有点怀疑它是否相同。我认为主要问题是 TermDocumentMatrix 是 S4 类，现在是 S3。我知道这样做可能只有文字。但我想这样做，因为在 TDM 中，可以删除停用词、punct 等以获得更好的结果。因此，如果有人有任何很棒的解决方案。

r statistics cluster-analysis k-means text-mining

2011-11-09T23:18:24.607

0 投票

7 回答

26130 浏览

r - 检测 R 中的文本语言

我有一个推文列表，我想只保留那些是英文的。

我怎样才能做到这一点？

r text-mining

2011-11-10T11:11:14.117

0 投票

1 回答

447 浏览

r - ngram 的哈希值：文档指纹识别

我正在尝试在 R 中实现文档指纹识别的筛选算法。

这里参考http://www.ida.liu.se/~TDDC03/oldprojects/2005/final-projects/prj10.pdf

我的问题：

我如何获得 n-gram 的哈希值以及如何选择那些

r hash text-mining fingerprinting

2011-11-12T13:29:48.213

1 2 3 4 5 6 7 8 9 10

问题标签 [text-mining]

Reference