问题标签 [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
139 浏览

regex - 解析或提取数据以在数据库中输入

我有以下文本文件:

我想使用verdict、foreman、court、clerk、sentence等关键字作为标签,将这些信息输入数据库。请告诉我如何提取这些单词以创建标签以形成 xml 文档以将其放入数据库中。我一直在使用正则表达式和数据提取进行搜索,但我还没有找到任何东西。

0 投票
1 回答
181 浏览

data-mining - 数据提取推荐软件(邮箱、姓名、国家)

我想从普通文件(thunderbird 邮箱、html 文件、csv)中提取一些数据。我通常会得到这样的字符串(进入文件)

用户:pepito 电话:11233213 邮箱:user@domain.com

然后我正在搜索一个软件,它可以让我按字符串(脚本、宏、它)提取并通过分隔列导出到 CSV,

你能给我推荐一个软件或方法吗?您的帮助将不胜感激

非常感谢

0 投票
1 回答
3601 浏览

html - 如何使用 iMacros 检查 html 是否包含某个数字

我想使用 iMacros 检查一个 html 网站是否包含某些数字。如果是这样,那么我想根据找到的数字分配一个变量。

就像如果 html 包含 112233 那么我想将 Var1 设置为 123 如果 html 包含 223344 那么我希望 Var1 为 645

这样做的方法是什么?

谢谢!

0 投票
2 回答
915 浏览

c++ - 是否有用于从 HTML 页面中提取数据的库?

我想从网页中提取信息。不幸的是,据我所知,该网站 (4chan) 没有公共 API。

什么是从 HTML 文档中提取特定数据的好库?我更喜欢在 UNIX 系统上运行的免费软件库。


编辑:基本上我想从 4chan 获取帖子和图片。该网页不是有效的 HTML(并且没有 doctype),因此解析器不应该太严格。

0 投票
1 回答
127 浏览

python - Python + 散点图 + 其他废话

我每周都会收到几封电子邮件,详细说明源自我参与的网络的滥用活动。这些通常包含:

a) 被视为已泄露的 URL。

或者

b) 被视为垃圾邮件的电子邮件副本。

其中大部分是自动化的,通常不会很好地遵循 ARF。

我需要的是自动数据提取,但我正在绞尽脑汁,因为当电子邮件的结构发生变化且不可预测时,我不太确定该怎么做。

我现在要提取的是:

a) 垃圾邮件的原始邮件服务器(以及 UID/用户名,显示在大多数 Exim/Qmail 接收的标头中)

b) 域名

c) 受感染网站的 URL

d) 电子邮件地址

我可以使用一些正则表达式和一些其他垃圾来毫不费力地做到这一点,但基本上它是不可靠的。通过解析电子邮件正文,我最终可能会得到 5 个 IP、3 个 URL 和 3 个电子邮件地址,我不确定如何自动选择最合适的。

我需要一些关于我应该研究/寻找什么的方向,以便对正确的数据做出最好的自动判断。我有超过 100,000 封过去的报告电子邮件,所以不乏测试数据,我只需要知道如何开始以及解决这个问题应该研究什么。

感谢您花时间阅读本文,如果我遗漏了什么或有其他问题,请告诉我:)

仅供参考,我考虑了以下几点:

  • 插入来自该发件人的几封已分类的过去电子邮件,然后对新电子邮件进行设置差异。除了使用 python 集合 + 列表对一些算法进行硬编码之外,我不知道最好的方法。

  • 将我以前的所有数据绘制到各种形式的 ScatterPlot/Histogram 上。然后,我将能够根据现有数据测试每封新电子邮件,并挑选出图表中最不占优势的细节。再一次,我不确定我应该在这里寻找哪些库。

  • 使用样本数据对以前看到的项目进行加权。即,如果我放置一个包含 1000 个先前样本的页面,并“标记”永远不会正确的 IP,并标记可能正确的 IP。

  • 编写一堆涉及套接字查找的代码来解析主机名并将项目匹配在一起。我知道这将是密集的运行,但它很可能会得到最好的结果。

干杯!

0 投票
1 回答
226 浏览

uml - 使用 UML 约定创建元模型并从中创建数据模型

对不起,如果这个问题听起来太模糊。我会根据您的反馈进行改进。

我已经设法准备了一个问题域的 UML 模型。这本质上是一个描述类属性和类之间聚合关系的类图。现在的意图是填充数据。

例如,A 类聚合了 B 类的 N 个实例。我想创建一个数据模型,其中包含一个实例 A 类和 5 个 B 类实例的数据。

基本上,与此元模型有关的数据可在文档(例如 xls、framemaker)中获得,并且应该可以读取源并填充数据模型。

有没有工具可以让我创建这个数据模型?请指教。

0 投票
6 回答
213 浏览

c# - CS中的正则表达式:数据提取

我有这样的数据:

我想让纽约摆脱它。

我在正则表达式方面没有任何技能。我试过这个:

这给了我<a href="/New_York_City" title="New York City">New York</a>

如何访问 和 之间的<a .*>数据</a>?谢谢。

0 投票
1 回答
3127 浏览

matlab - MATLAB:从结构中提取数据并放入自定义大小矩阵

我有一个文件 filedata.mat,其中包含一个 1x1 结构,其子级别包含来自车辆通道的数据。该文件有近 30 个测量通道。通道名称、通道单位和通道值(针对时间)存储在单独的子级别中。

我想通过列号指定哪些通道(即哪些数据列),并让代码将数据放置在一个矩阵中,其中第 1 行中的通道名称和第 2 行中的通道单元。

我目前拥有的代码如下:

我的想法是,这会将通道名称放在第 1 行(即当 i = 1 时),将通道单元放在第 2 行(当 i = 2 时),然后将所有剩余的数据行放置到 i = I。

但是,当我运行此代码时,我收到错误“下标分配维度不匹配”。在第 14 行,即:

如果有人可以提出解决方案并且 - 也许更重要的是 - 解释我哪里出错了(所以我可以学到一些东西!)我真的很感激。

提前致谢。

0 投票
1 回答
1363 浏览

java - 使用 Java 库从 ODT 文档中提取字段

我需要使用 Java 库(或代码)从 ODT 文档的内容中提取字段标记。我知道 odt 是某种压缩文件,它的内容包含在 content.xml 文件中。当然我可以提取文件,打开 content.xml 并解析它,但我相信存在一些更高级别的代码。仅作为示例,内容如下所示:

我想将字段提取为 ${name} 和 $nome。

我知道 Apache Tika 可以用于此,但我还没有发现实际显示字段提取的示例。我相信这是因为我使用的字段是非结构化文本而不是输入字段标签。

在此先感谢,丹尼尔

0 投票
3 回答
999 浏览

java - HTML 解析(在 Java/Android 中)然后从中提取数据是获取网页内容的有效方法吗?

因此,在提取整个 HTML 代码之前,我使用 Android Java 中的 HTTP Post Requests 登录网站。之后,我使用 Pattern/Matcher (regex) 来查找我需要的所有元素,然后从 HTML 数据中提取它们,并删除所有不必要的内容。例如当我提取这个:

然后我使用:

我会多次执行此操作,直到获得该站点所需的所有数据,然后再将其显示在某种列表中。

我并没有特别拘泥于任何事情,但是请你告诉我这是否是从页面获取数据并处理它的一种有效/高效/快速的方式,或者有没有办法更快地做到这一点?因为有时它就像我的程序需要花费大量时间来获取某些数据(尽管主要是当我在手机上使用 3G 时)。