问题标签 [text-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1527 浏览

parsing - 寻找信息检索/文本挖掘应用程序或库

我们从电子邮件中提取各种信息 - 航班、汽车租赁、酒店等。方法是提取邮件的正文,通常是 HTML 格式,但有时是文本,或者我们使用 PDF/Word/RTF 附件中的信息。然后,我们应用正则表达式(有时分几个步骤)以获取以表格形式提供的信息(您可以想到航班表、酒店表等)。请注意,即使我们解析 HTML,这也不是网络抓取。

目前我们正在使用 QL2 的 WebQL 引擎,但出于商业原因,我们正在寻求替换它。你能推荐其他引擎吗?它必须在 Linux 上运行并且可以从 Java 访问(Java API 是最好的,但 Web 服务也是很好的解决方案)。它还必须支持用于文本提取的正则表达式,而不仅仅是基于 HTML 结构。

0 投票
2 回答
3342 浏览

python - 除了 NLTK,Python 最好的信息检索库是什么?

用于分析 Internet 上的文件!

0 投票
2 回答
7860 浏览

python - 用 Python 对 PDF 文件进行文本挖掘?

是否有 python 的包/库可以让我打开 PDF,并在文本中搜索某些单词?

0 投票
7 回答
215147 浏览

math - 什么是“熵和信息增益”?

我正在阅读这本书 ( NLTK ),它令人困惑。 定义

熵是每个标签的概率乘以同一标签的对数概率的总和

如何在文本挖掘方面应用最大熵?有人可以给我一个简单,简单的例子(视觉)吗?

0 投票
3 回答
2600 浏览

hex - 查找 HEX 模式和出现次数

我想查找模式并按我拥有的 HEX 文件上的出现次数对它们进行排序。

我不是在寻找一些特定的模式,只是为了对那里发生的事件进行一些统计并对其进行排序。

这是十六进制文件的摘录,作为一个例子,我想得到:

XX 次 BDBDBD

XX 次 B93D

有没有办法挖掘文件以生成该输出?

0 投票
1 回答
2092 浏览

python - Python中的Perl?

我想从 Python 中访问一个 Perl 库。我该如何使用它?

仅供参考,该软件是NCleaner。我想在 Python 中使用它来将 HTML 字符串转换为文本。(是的,我知道 aaronsw 的 Python html2text。NCleaner 更好,因为它删除了样板。)

我不想将 Perl 程序作为脚本运行并重复调用它,因为它具有昂贵的初始加载时间并且我多次调用它。

0 投票
5 回答
441 浏览

text-processing - 术语聚类库?

有人知道做术语聚类的开源\免费库吗?

谢谢,亚尼夫

0 投票
6 回答
1113 浏览

text - 文本挖掘库还是语言库?

我有一堆从我拥有的论坛中收集的数据,并且想做一些文本挖掘或使用一些语言库来提取有用的信息。

任何文本挖掘,任何语言的数据挖掘库都可以。

谢谢你。

0 投票
1 回答
348 浏览

php - 从任意html页面中提取有用的数据?

是否有 ruby​​ 或 php 库能够解析 html 页面并通过将其与其他类似页面进行比较来提取唯一数据....应该使用某种文本挖掘来识别哪些文本更有可能是噪音和重复性,而其他文本更加独特和有用...

0 投票
1 回答
2879 浏览

.net - 使用 .Net 进行文本挖掘、事实提取、语义分析

我正在寻找任何可以让我在我的 .NET 应用程序中利用文本挖掘、事实提取和语义分析的免费工具/组件/库。

GATE项目是我需要的,但它是用 Java 编写的。.NET 世界中有类似 GATE 的东西吗?

我的挑战是从网站文本内容中提取某些事实。我计划使用一些 NLP 算法来实现这样的功能,但我不确定如何实现它们,所以如果它们可用,我将使用任何现有的解决方案。

如果您能给我一些建议,我将不胜感激。我是这个领域的新手,所以任何相关信息对我来说都非常有用。