问题标签 [data-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - MATLAB:将列组提取到子矩阵中?
我有一个数据集,我想在其中提取第 1-3、7-9、13-15 列,一直到矩阵的末尾
例如,我使用了标准的魔法函数来创建一个矩阵
A=魔法(10)
一个=
我知道我可以使用以下命令以 3 的间隔从 1 开始提取单列:
Aex=a(:,1 : 3 : 结束)
Aex =
假设我想提取列组(例如列 1-3、7-9 等)。
有没有办法做到这一点而不必手动指出所有的列号?
谢谢你的帮助!拉斯穆斯
html - Web 数据提取,从表格中获取数据到 CSV
我想从网页中的表格中获取数据,这些表格似乎是使用“Excel Publish as Web Page Wizard”发布的。我知道有很多抓取工具(对于这样的任务来说似乎很先进)并且知道我可以编写一个脚本,但我想指出一些非常简单的东西,特别是数据是使用自动化发布的工具。
我更喜欢使用 Rails 解决方案。
数据是统计健康数据,这里是一些样本的链接。
regex - 网站智能数据提取算法
我正在构建一个交易聚合器,所以我需要一个爬虫来从一些网站中提取数据:价格、折扣、图像、坐标和交易名称。
你知道任何教程、电子书或对我有帮助的东西吗?对于图像和坐标以及折扣,我有一个解决方案和模式:
- 形象:最大的形象永远是交易的主要形象
- 折扣:折扣始终是 50 到 99 之间的数字,并且始终带有“%”符号
- 坐标:总是十进制数字,所以我用正则表达式得到它
如何获得以下物品?
- 交易名称?
- 价格?
你知道任何有用的数据提取算法吗?
regex - Trying to extract information in a regular expression
I'm trying to write a regular expression that will allow me to extract the data in between the quotation marks, and then allow me to replace it with new information.
title="Information here"
java - 有人可以帮我从这个文本中提取子字符串吗?
我正在尝试创建一个需要从 imdb 提取数据的项目。我见过一些 php 提取器,但我需要一个 java 程序。我需要提取如下信息:
- 电影名称和年份
- 小地块
- 评分
- 类型
- 演员
数据如下,我需要从中提取数据:
如果有帮助,此数据来自 imdbapi.com。让我知道是否有任何其他方法可以以任何其他方式提取这些数据,我的意思是这些数据将以更结构化的形式显示的其他方式。喜欢卓越。
export-to-csv - 获取退伍军人事务医院数据库友好列表的最佳方法
如果这不是讨论这个问题的适当论坛,我真诚地道歉,但我不确定去哪里或什么是最好的选择。
基本上,我试图找到一个数据库友好的退伍军人医院列表。我能找到的最接近的东西是 www.va.gov/ofcadmin/docs/CATB.pdf,因为它包含我正在寻找的所有信息:
- 地区
- 地址
- 单独列中的城市
- 邮政编码在单独的列中
- 状态
- 设施编号(也称为 StationID)
- VISN
- 象征
我已经尝试将该 PDF 导出为 CSV,但开始工作是一场彻头彻尾的噩梦。所以,我很好奇是否有人对我如何完成这项任务有任何想法或见解。
python - Python:确定缺失的行
以包含以下几行的短文件为例:
我所做的是读取文本文件,并将Apple
,Orange
和Pear
放入各自的列表中,例如:
我曾经line.count('Apple')==1
确定文本文件中的当前行是一个水果,然后将其后的值附加=
到列表中。
如您所见,缺少第二部分Apple
。我希望列表是:
每当该行不显示水果时,应附加列表-
以指示它。
我的问题是,那我该怎么做。确定一个部分缺少水果名称,然后附加-
到它。
data-extraction - 自动填写网络查询表单并返回数据(对于新手)
我是编程中的“新手”之前的任何东西。我在 VBA 中为 Excel 编写了宏,并且在我年轻的时候也使用过 Visual Studio,但仅此而已。
我的问题:为了生成我在工作中需要的报告,我必须提取存储在我公司 Intranet 上用户友好查询表单后面的数据。除了这个,我已经自动化了报告的所有其他部分。我想编写一个程序来访问这个网页并用预设值为我填写查询表,然后返回输出的数据。我与我的一位计算机科学家朋友进行了讨论,他说使用 Haskell(他选择的语言)很容易做到这一点。但是我不是老手,所以我想学习一种更接近我水平的语言...... Python 似乎是一个不错的选择。
我的问题:是否可以使用 Python 进行这种类型的数据提取?这会有多难,什么是自学的好资源?
我做了一些研究并提出了 Scrapy,但我不知道它是否可以填写表格。此外,如果有其他更适合此的语言,我会很高兴听到它。
phpquery - 在一个循环中从 100 个网页中提取数据时遇到问题
我有点卡住了。我的目标是从一个有几百页的网站中提取数据。它是一个体育网站,我必须提取球队名称和其他相关数据。到目前为止,我已经成功地做到了。我运行了 6-7 页的循环,它的效果非常好。但是当我将循环更改为大约一个月(25)时,它会检索到不完整的数据。例如,如果目的地日期是 10 月 25 日,它可能会在 10 月 10 日至 12 日随机停止。我正在使用phpQuery
,我的互联网连接为 1MB。请在这件事上指导我,谢谢。
java - 如何获取不在 html 源中但在浏览器中可见的数据?
我想要的数据在浏览器中是可见的,但我在 html 源代码中找不到。我怀疑数据是由脚本生成的。我想对这类数据进行分级。可以使用 Jsoup 吗?我知道 Jsoup 只是不执行 Javascript。
以这个页面为例,我想抓取 Academics -> COLLEGES & SCHOOLS 下的所有学院和学校。