csv - 从具有大量空白的源中提取数据

Question

我正在尝试从中提取数据：http ://www.phillysheriff.com/old_site/properties.html

理想情况下，我可以得到一个包含地址、病房、价格和平方英尺的 CSV 文件？是否有捷径可寻？

score 1 · Accepted Answer

从网页中提取此类信息的过程通俗地称为“抓取”。如果是我，我会使用 python 语言和“Beautiful Soup”包来做。但是，搜索“screen scrape”或“web scrape”以及您最喜欢的编程语言的 google 应该会为您找到一个可以为您完成艰苦工作的软件包。

score 0 · Accepted Answer

您可以运行 IRobotSoft web scraper，在其浏览器窗口中打开页面，然后使用菜单：Design -> Practice HTQL。在输入框中输入以下 HTQL 查询，将页面转换为标准 HTML 表格：

<hr sep>2-0{
a=<center>1 &tx &trim;
b=<center>1:xx ./'nbsp'/1 &tx &trim('&; ');
c=<center>1:xx ./'nbsp'/3 ./'\n'/1 &tx &trim('&; ');
d=<center>1:xx ./'nbsp'/3 ./'Ward'~'BRT#'/1 &tx;
e=<center>1:xx ./'nbsp'/3 ./'BRT#'~'Improvements:'/1 &tx;
f=<center>1:xx ./'nbsp'/3 ./'Improvements:'/2 &tx;
g=<br sep>2. /'nbsp'/1 &tx &trim('&; ');
h=<br sep>2. /'nbsp'/3 &tx &trim('&; '); 
i=<br sep>2. /'nbsp'/5 &tx &trim('&; ');
j=<br sep>2. /'nbsp'/7 &tx &trim('&; ');
}

csv - 从具有大量空白的源中提取数据

2 回答 2

Related

Reference