问题标签 [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text-mining - 将正则表达式与 $ 一起使用
只是一个简单的问题,有人知道如何将正则表达式与 "\$" 一起使用吗?本质上,我想解析字符串并找出 \$ 之后的数值(例如“购买新床架可获得 50 美元的折扣”)。
algorithm - URL路径相似度/字符串相似度算法
我的问题是我需要比较 URL 路径并推断它们是否相似。下面我提供要处理的示例数据:
我试过 Levenshtein 距离来比较,但对我来说不够准确。我不需要 100% 准确的算法,但我认为 90% 及以上是必须的。
我认为我需要某种分类器,但问题是新数据的每个部分都可以包含应该分类到新未知类的路径。
你能把我引到右边吗?
谢谢
svm - 使用 LSA/SVD 进行文档分类
我正在尝试使用支持向量机 (SVM) 进行文档分类。我拥有的文件是电子邮件的集合。我有大约 3000 个文档来训练 SVM 分类器,并且有一个大约 700 个需要分类的测试文档集。
我最初使用二进制 DocumentTermMatrix 作为 SVM 训练的输入。使用测试数据进行分类的准确率约为 81%。在删除几个停用词后使用 DocumentTermMatrix。
由于我想提高这个模型的准确性,我尝试使用基于 LSA/SVD 的降维,并使用生成的降维因子作为分类模型的输入(我尝试使用原始包中的 20、50、100 和 200 个奇异值〜3000字)。在每种情况下,分类的性能都变差了。(使用 LSA/SVD 的另一个原因是为了克服具有 65 个级别的响应变量之一的记忆问题)。
有人可以就如何提高 LSA/SVD 分类的性能提供一些指导吗?我意识到这是没有任何特定数据或代码的一般问题,但希望专家提供一些关于从哪里开始调试的意见。
仅供参考,我正在使用 R 进行文本预处理(包:tm、雪球、lsa)和构建分类模型(包:kernelsvm)
谢谢你。
java - 可以推荐哪种语言用于文本挖掘/解析?
我正在网页中进行一些文本挖掘。目前我正在使用 Java,但也许有更合适的语言来做我想做的事。
我想做的一些事情的例子:
根据字母、数字、字母数字、符号等部分(字母、数字、符号等)确定单词的字符类型(类型更多)。
根据统计数据发现停用词。
根据统计和一些逻辑发现一些语法类(动词、名词、介词、连词)。
我正在考虑使用 Prolog 和 R(我对这些语言了解不多),但我不知道它们是否适合这个,或者可能是另一种更合适的语言。
我可以使用哪个?也欢迎 Java 的优秀库。
r - R文本文件和文本挖掘...如何加载数据
我正在使用 R 包tm
,我想做一些文本挖掘。这是一个文档,被视为一袋单词。
我不了解有关如何加载文本文件和创建必要对象以开始使用诸如...等功能的文档。
所以假设这是我的文档“这是对 R 负载的测试”
如何加载数据以进行文本处理并创建对象 x?
r - 我可以在 R 中执行广义迭代缩放吗?
我希望将我们自己开发的各种机器学习算法平台从 C# 移植到更强大的数据挖掘平台,例如 R。虽然很明显 R 在许多类型的数据挖掘任务中都很出色,但我不清楚是否它可以用于文本分类。
具体来说,我们从文本中提取二元组列表,然后将其分类为 15 个不同类别之一,例如:
Bigram 列表:珠宝、书籍、手表、鞋子、百货商店 -> 类别:购物
我们既想在 R 中训练模型,又想连接到数据库以更大规模地执行此操作。
可以在R中完成吗?
nlp - 文本挖掘的基本算法是什么?
我正在尝试做一个从网络上挖掘一些文本的应用程序,但我不确定执行文本挖掘的最佳方法是什么。
我想对这个问题了解什么是最常用的技术/算法来执行文本挖掘和在文档中进行一些信息检索(不用于索引)。
r - 包 tm。kmeans的问题
我有一个关于 R 中 k-means 聚类的问题。实际上我正在根据这篇文章做所有事情。一切都基于 tm 包中的示例,因此不需要导入数据。acq 包含 50 个文档和粗略的 20 个文档。
我实际上想创建交叉协议矩阵。但是这篇文章是在 2008 年写的,从那以后发生了很多变化。Data 功能仅在 RSurvey 包中可用,但我有点怀疑它是否相同。我认为主要问题是 TermDocumentMatrix 是 S4 类,现在是 S3。我知道这样做可能只有文字。但我想这样做,因为在 TDM 中,可以删除停用词、punct 等以获得更好的结果。因此,如果有人有任何很棒的解决方案。
r - 检测 R 中的文本语言
我有一个推文列表,我想只保留那些是英文的。
我怎样才能做到这一点?
r - ngram 的哈希值:文档指纹识别
我正在尝试在 R 中实现文档指纹识别的筛选算法。
这里参考http://www.ida.liu.se/~TDDC03/oldprojects/2005/final-projects/prj10.pdf
我的问题:
我如何获得 n-gram 的哈希值以及如何选择那些