问题标签 [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
690 浏览

java - Tika 1.1 性能改进

我正在使用 tika 1.1,我面临的问题是 tika 需要很长时间才能从文件中提取内容。提取 1MB 的 pdf/doc 文件需要大约 3 秒的时间。有什么方法可以提高性能吗?任何有助于提高性能的调整、配置。

我已经尝试过 tika 1.4 但不幸的是相同的 pdf 时间是 ~3.2 秒。

我正在使用 BodyContentHandler。

}

0 投票
1 回答
300 浏览

html-agility-pack - 如何使用 HtmlAgilityPack 获取多个相似的标签数据?

在解释之前,我使用的是 VB.net 和 HtmlAgilityPack。

我有下面的 html,所有三个部分都有相同的格式。我正在使用 htmlagilitypack 从标题和日期中提取数据。我的代码正确提取了标题,但日期仅从第一个实例中提取并重复 3 次:

HtmlAgilityPack 代码:

我以为在每个 h4 中,我都会相应地得到它的相关日期......

HTML 代码:

最终输出应该是:

A先生的文字

29-11-2013

B先生的文字

27-11-2013

C先生的文字

22-10-2013

我的代码得到了什么:

A先生的文字

29-11-2013

B先生的文字

29-11-2013

C先生的文字

29-11-2013

任何帮助深表感谢。

0 投票
6 回答
1509 浏览

java - 用于提取数据的 Java 正则表达式模式

我有这样的传入数据

数据是变化的,但不是完全随机或不可预测的。

那么基本上我们如何提取每个字符串中传入的 ID,而忽略其余的垃圾?

0 投票
1 回答
217 浏览

python - 从时间序列数据中聚合重叠的“所有先前事件”特征 - 在 Python 中

我的问题很笼统,可能可以通过多种方式解决。但是考虑到时间和记忆的聪明方法是什么?

我有以下形式的用户交互的时间序列数据:

我希望它训练模型来预测用户是否会在显示横幅时点击横幅(即标有 * 的交互)。为此,我需要在提要中出现兴趣点(或viewed_banner或)时汇总所有先前的交互:viewed_and clicked_banner

这是问题的核心:将数据分成重叠的组!完成此操作后,每个组都可以聚合为例如:

这里的数字did_somethingviewed_banner是这些交互的计数(不包括兴趣点),但也可以执行其他类型的聚合。该clicked?属性仅描述了两种“兴趣点”中的哪一种是交互提要中的最后一次交互。

我曾尝试查看 Pandasapplygroupby方法,但无法提出生成所需重叠组的方法。

另一种方法是使用一些 for 循环,但如果有一种简单有效的方法来解决问题,我宁愿不这样做。

0 投票
0 回答
138 浏览

c# - 以编程方式 (C#) 从使用 _doPostBack (JavaScript) 的网站中提取数据

我正在尝试使用 C# 从网站中提取数据。我面临的问题是网站实现了 JavaScript(即 _doPostBack 方法)来在页面之间导航。换句话说,该页面包含类似于 Google 页面结果的数字按钮(1、2、3、4、...)。当您按下任何数字按钮时,该按钮将调用名为“_doPostBack”的函数在结果页面之间导航。我在网站的页面脚本中进行了搜索(包括 _doPostBack 方法),但找不到任何用于检索数据的链接。此外,我查看了 JavaScript 文件,没有任何链接。请问,我该怎么办?

谢谢

0 投票
3 回答
3846 浏览

python - Scrapy tutorial (noob) - 0 pages crawled

I've been trying to follow the Scrapy tutorial (as in, very very beginning) and after running the command at the project top level (i.e. the level with scrapy.cfg) I get the following output:

(I.e. 0 pages crawled at 0/a second!!!!!!!!!!!!!!)

Troubleshooting so far: 1) Checked syntax of both items.py and dmoz_spider.py (both copied and pasted AND hand-typed) 2) Checked for problem online but cannot see others with similar issue 3) Checked folder structure etc making sure running command from correct place 4) Upgraded to latest version of scrapy

Any suggestions? My code is precisely as in the examples

dmoz_spider.py is......

and items.py......

0 投票
1 回答
3536 浏览

vba - 使用 VBA 将数据从网页提取到 Excel

我试图从网页中拉出一个表格,到目前为止我已经成功地从网页中拉出一个表格,不幸的是我在表格的每一行都有一些链接,当我从网页中拉出表格时,我得到的输出没有链接,只是文本,有什么方法可以使用 VBA 从网页中提取表格,包括超链接。

这是我的代码:

0 投票
1 回答
2154 浏览

batch-file - 从 DOS 软件中提取旧数据

我有一个在 DOS 上创建的旧软件。我所拥有的只是一个向我展示 UI 的可执行文件。该软件的作用是获取给门制造公司的订单的详细信息,将其存储在某个地方并将数据发送到针式打印机。存储的数据包括客户的姓名和地址、门的尺寸等。

该软件的原始创建者不再联系,我不知道使用什么语言创建它。我的公司希望摆脱这个系统,但现在访问旧订单信息的唯一方法是将订单号插入 UI。

我需要做的是提取这些数据并将其转换为某种可读格式,我已经阅读了研究论文,搜索了这个网站和许多其他网站,但都没有找到。我知道当我输入新订单时,被修改的文件具有以下格式:

^01, WRK, DBK, STA

目录中还有其他格式的文件,如 .ALT、.DBI、.ASC、.BAS、.DDF、.MA3,但这些文件在过去 20 年中似乎没有改变。

非常感谢你们

0 投票
1 回答
591 浏览

matlab - 定位数据集所在的网格并在matlab中提取此数据

我有两组数据。一组数据是一个矩阵,每行包含不同的样本,列中包含有关每个样本的信息,其中一列包含经度数据,另一列包含样本的纬度数据。另一个数据集由三个网格组成。第一个网格包含数据的纬度,第二个网格包含数据的经度,第三个网格包含 1° 纬度经度网格的数据。

我想要找出第二个数据集中的哪些数据与第二个数据集中的数据相对应。我的意思是,如果样本落入第二个数据集的特定网格中,则需要提取该网格中的数据,并且需要知道数据适用于哪个样本。

所以只要说在纬度 60 和 59 之间的网格中,经度 100 和 101 样本 x 下降。只需说这个特定网格的网格数据集中的数据是 10。我想知道 10(网格中的数据)适用于样本 x。

最后,我希望网格数据对应于新矩阵中的样本,该矩阵可以作为样本数据集的伙伴(即,如果样本 x 在第 40 行,那么矩阵 10 在第 40 行) ,或者作为新列添加到相同的数据集中。请记住,某些样本将落入同一个网格中。

我对matlab相当缺乏经验,我尝试过刷机工具,但这不适用于这个例子。我能想到的所有可能的工作是将样本数据中的每个 long 和 lat 舍入为偶数,然后找到哪些样本在 long 和 lat 中重叠,然后将样本数据中的 long 与 long 网格相交,然后执行对于 lat 网格,查找每个样本所属的行和列,然后找到每个样本的数据。这似乎还有很长的路要走,我不太确定它的效果如何。

我已经完成了这个方法,它在一定程度上起作用了......我有每个样本的数据所在的行和列(即样本 x 可以在第 8 行第 100 列中找到)。但是,当我尝试从网格中提取这些数据时,它不是包含一列而是包含多列的矩阵,答案仍然在矩阵的样本位置。如何从网格的每一行中获取一个数据点并最终得到一个只有一列(或可以变成一列的行)的矩阵?

谢谢

0 投票
2 回答
1304 浏览

java - 使用 Java 从 JSON 中提取数据

问题:从 JSON 文件中提取数据并将其存储在 java 中以供调用的方法。

我正在尝试做的事情:我想从 JSON 文件中提取数据,以使用 Java 对屏幕上的数据进行比较。

我尝试过的:首先,我尝试查找有关从 JSON 文件中提取数据的资源和信息,然后尝试通过手动操作文本来实现,但这显然不可扩展。

编码

感谢您的帮助,任何我需要在帖子中包含的更改或内容,请发表评论。