首先,html 行如下所示:
<tr class="evenColor"> blahblah TheTextIneed blahblah and ends with </tr>
我会展示真正的 html,但我很抱歉说不知道如何阻止它。感到羞耻
使用 BeautifulSoup (Python) 或任何其他推荐的屏幕抓取/解析方法,我想将同一目录中的大约 1200 个 .htm 文件输出为 CSV 格式。这最终将进入 SQL 数据库。每个目录代表一年,我计划至少做 5 年。
glob
根据一些建议,我一直在玩弄这是最好的方法。这就是我到目前为止所拥有的并且被卡住了。
import glob
from BeautifulSoup import BeautifulSoup
for filename in glob.glob('/home/phi/data/NHL/pl0708/pl02*.htm'):
#these files go from pl020001.htm to pl021230.htm sequentially
soup = BeautifulSoup(open(filename["r"]))
for row in soup.findAll("tr", attrs={ "class" : "evenColor" })
我意识到这很丑陋,但这是我第一次尝试这样的事情。在意识到我不必手动复制数千个文件并将其粘贴到 Excel 中之后,我花了几个月的时间才解决这个问题。我也意识到我可以因为沮丧而反复踢我的电脑,但它仍然有效(不推荐)。我快接近了,我需要知道接下来要做什么来制作这些 CSV 文件。请帮忙,否则我的显示器终于被锤击了。