我下载并抓取网页以获取 TSV 格式的一些数据。TSV 数据周围是我不想要的 HTML。
我下载网页的 html,并使用 beautifulsoup 刮出我想要的数据。但是,我现在已经在内存中获得了 TSV 数据。
如何在 pandas 的内存中使用此 TSV 数据?我能找到的每个方法似乎都想从文件或 URI 中读取,而不是从我已经抓取的数据中读取。
我不想下载文本,将其写入文件,然后重新抓取它。
#!/usr/bin/env python2
from pandas import pandas as p
from BeautifulSoup import BeautifulSoup
import urllib2
def main():
url = "URL"
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)
# pre is the tag that the data is within
tab_sepd_vals = soup.pre.string
data = p.LOAD_CSV(tab_sepd_vals)
process(data)