问题标签 [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parsing - 寻找信息检索/文本挖掘应用程序或库
我们从电子邮件中提取各种信息 - 航班、汽车租赁、酒店等。方法是提取邮件的正文,通常是 HTML 格式,但有时是文本,或者我们使用 PDF/Word/RTF 附件中的信息。然后,我们应用正则表达式(有时分几个步骤)以获取以表格形式提供的信息(您可以想到航班表、酒店表等)。请注意,即使我们解析 HTML,这也不是网络抓取。
目前我们正在使用 QL2 的 WebQL 引擎,但出于商业原因,我们正在寻求替换它。你能推荐其他引擎吗?它必须在 Linux 上运行并且可以从 Java 访问(Java API 是最好的,但 Web 服务也是很好的解决方案)。它还必须支持用于文本提取的正则表达式,而不仅仅是基于 HTML 结构。
python - 除了 NLTK,Python 最好的信息检索库是什么?
用于分析 Internet 上的文件!
python - 用 Python 对 PDF 文件进行文本挖掘?
是否有 python 的包/库可以让我打开 PDF,并在文本中搜索某些单词?
hex - 查找 HEX 模式和出现次数
我想查找模式并按我拥有的 HEX 文件上的出现次数对它们进行排序。
我不是在寻找一些特定的模式,只是为了对那里发生的事件进行一些统计并对其进行排序。
这是十六进制文件的摘录,作为一个例子,我想得到:
XX 次 BDBDBD
XX 次 B93D
有没有办法挖掘文件以生成该输出?
python - Python中的Perl?
我想从 Python 中访问一个 Perl 库。我该如何使用它?
仅供参考,该软件是NCleaner。我想在 Python 中使用它来将 HTML 字符串转换为文本。(是的,我知道 aaronsw 的 Python html2text。NCleaner 更好,因为它删除了样板。)
我不想将 Perl 程序作为脚本运行并重复调用它,因为它具有昂贵的初始加载时间并且我多次调用它。
text-processing - 术语聚类库?
有人知道做术语聚类的开源\免费库吗?
谢谢,亚尼夫
text - 文本挖掘库还是语言库?
我有一堆从我拥有的论坛中收集的数据,并且想做一些文本挖掘或使用一些语言库来提取有用的信息。
任何文本挖掘,任何语言的数据挖掘库都可以。
谢谢你。
php - 从任意html页面中提取有用的数据?
是否有 ruby 或 php 库能够解析 html 页面并通过将其与其他类似页面进行比较来提取唯一数据....应该使用某种文本挖掘来识别哪些文本更有可能是噪音和重复性,而其他文本更加独特和有用...
.net - 使用 .Net 进行文本挖掘、事实提取、语义分析
我正在寻找任何可以让我在我的 .NET 应用程序中利用文本挖掘、事实提取和语义分析的免费工具/组件/库。
GATE项目是我需要的,但它是用 Java 编写的。.NET 世界中有类似 GATE 的东西吗?
我的挑战是从网站文本内容中提取某些事实。我计划使用一些 NLP 算法来实现这样的功能,但我不确定如何实现它们,所以如果它们可用,我将使用任何现有的解决方案。
如果您能给我一些建议,我将不胜感激。我是这个领域的新手,所以任何相关信息对我来说都非常有用。