问题标签 [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
582 浏览

php - 数据表上的 DOM

请允许我解释一下我在这组代码之后需要什么

我正在尝试 CURL 多行,最后一个 t_id=75481 上的链接实际上是 ROW 编号。我想根据第一个提取它

示例如下

IF first = NUM​​BER(1123) ,检索数字 75481(在 CURL 中也称为 CLICK)。

我在这里做的是尝试在包含行号的文本上单击/提交(CURL),但我必须根据我的数字与第一个数字的比较来做到这一点

我在 SourceForge 中使用 PHP Simple HTML DOM Parser。它似乎仅限于我有时可以做的事情,实际上当我使用它来提取一些数据时,它似乎无法接受足够的“条件”引导我一半时间提取正确的数据,因为网站会针对不同的页面进行更改(确实如此,取决于内容)

1) 我需要一个建议来获取行 ID,以便我可以 CURL(充当 CLICK) 2) 你会建议任何其他 HTML DOM?我觉得受到限制,或者我只是菜鸟:x

提前致谢!

0 投票
1 回答
18132 浏览

php - DOMXPath var_dump:“(省略对象值)”

瓦杜普$xpath

这里有什么问题?我正在尝试在 HTML 代码上使用 xpath 来提取信息。

0 投票
2 回答
73 浏览

php - 计算 JSON 数组中的条目?

如何计算从 JSON 中抓取的条目?

下面的示例有 6 个条目,但如您所见.. 如果添加条目,我的代码将忽略它。我可以循环它 10 次,如果它什么也没有,然后停止,但我认为这是一种不好的做法。

是否有任何简单的代码可以在以下 JSON 中提取 6 个“季节”?

MYPAGE.PHP

JSON

0 投票
2 回答
130 浏览

excel - 如何从〜1500个相同格式的txt文件中提取一行并将值保存到csv或xls?

我正在尝试从 ~1500 个格式相同的 txt 文件中的每一个中提取一行文本,然后将这些行中的所有值连同相应的日期(txt 文件名)一起保存到 csv 文件中。

所述txt文件中的行因此被格式化(上面和下面有数据行):

我希望最终生成一个如下所示的 xls 文件:

我考虑过使用 grep 或 awk,但坦率地说不知道从哪里开始。命令行批处理程序是最好的攻击方式吗?期望的最终结果是将所有这些每日平均值及其相应的日期导入到 Excel 电子表格中。excel 中的导入 txt 选项将在逐个文件的基础上工作,但这里的问题是手动将 1500 个单个文件从 txt 导入 xls 文件所需的时间是不可行的,除非我有一大群人。

任何见解或方向将不胜感激。

0 投票
1 回答
927 浏览

ruby - 如何编写 TSV 文件抓取器,其中“如果行包含 x,则保存”?

我想打开一个 TSV(制表符分隔值)文件,并将特定行保存到一个新的 CSV(逗号分隔值)文件中。

如果该行包含'NLD'在标题为“Actor1Code”的字段中,我想将该行保存到 CSV;如果没有,我想迭代到下一行。这是我到目前为止所拥有的,但显然这还不够:

0 投票
4 回答
3399 浏览

r - 使用 R 以编程方式提取澳大利亚 BOM 天气数据

在这里http://www.bom.gov.au/climate/data/我可以输入一个变电站号码,比如 009572;选择变量(比如温度)及其类型(比如最大值)。单击“获取数据”会将我带到带有“所有年份数据”链接的页面。单击它,您将获得一个 zip 文件。我知道这个问题,但在这里我没有指向 zip 文件的直接链接。可以用 R 从澳大利亚气象局网站自动提取天气数据吗?

0 投票
1 回答
2841 浏览

excel - 从 Excel 数据库中提取数据

我有一个包含一长串名称以及与名称相关联的唯一值的数据库。我想要做的是为每个人创建一个工作表,然后只将他们的数据复制到他们工作表中的指定范围,然后继续到下一个人,将他们的数据复制到他们的工作表等。

是一个示例工作表的链接(以谷歌文档形式,注意 - 我实际上使用的是 Excel 2010,而不是谷歌文档)。

我已经能够通过在我称为“员工”的新工作表中使用以下代码来创建所有工作表。我对这张表所做的只是删除了重复的名称值,这样我就可以获得工作表所有名称的列表。

任何帮助深表感谢。提前致谢。

0 投票
1 回答
1145 浏览

google-analytics - 从谷歌分析中自动提取数据

我们通常每月从谷歌分析中导入一次数据,并将其用于内部的一些报告需求。问题是我们必须手动执行此操作,如果我们可以自动化该过程并可能将每月一次的例程增加到每周一次甚至每天一次,那就太好了。我们的最终目标是设置一个工具来自动导入数据并将其存储到 csv 或 excel 文件中。输出文件对我们来说并不重要。只要我们可以在没有人工干预的情况下定期从 GA 中提取数据,我们将负责处理这些数据后的处理方式。我们为此使用了一些基于 java 的可执行文件(在线找到),但我们手动运行它来提取数据。

我一直在寻找一些解决方案,甚至是开源工具(最好是.Net,除了基于 Java 的任何东西),但我还没有真正找到任何东西。他们中的大多数需要人工干预才能导出数据,而他们能做的最好的事情就是根据该数据自动生成报告。

我们最后的手段是自己写一些东西,但我想进一步研究一下,节省开发/编程时间。我很确定那里有人至少遇到过这个问题。

任何帮助、指针或重定向到更好的来源将不胜感激。

谢谢

0 投票
3 回答
173 浏览

c# - 从C#中的字符串中提取方法参数

我有一个简单的文件阅读器,它可以读取多个 .cs 文件,搜索具有一个参数的特定方法。如果该方法存在,那么我只想抓取参数的名称。我正在考虑做一个 string.Compare(),但是我不知道如何获取参数开始的字符串的索引。

在这个例子中,我只想刮掉“名字”。

const string编辑:在某些情况下,参数也可能是 a 。无论如何要绕过它?

0 投票
0 回答
550 浏览

python - 如何在 Python 中安装 netCDF4 并提取 netCDF 数据文件?

我想使用 Python 提取 netCDF 数据文件。为此,我安装了 Numpy、netCDF4-Python 和 h5py。但是,它给出了一条错误消息

ImportError:numpy.core.multiarray 导入失败

那有什么问题?或者,有没有更简单的方法在 python 中提取 netCDF 文件?