我有以下代码
from bs4 import BeautifulSoup
from stripogram import html2text
import commands
import os
import urllib2
import sys
import re
import string
response = urllib2.urlopen(sys.argv[1])
html = response.read()
soup = BeautifulSoup(html)
outter = soup.find("div",{"id":"ps-content", "class":"bucket"})
final = outter.find("div", {"class":"buying"})
text = final.findAll(text=True)
asd = str(final)
print os.system("echo '" +asd + "'| html2text" )
它输出
Publication Date: February 1996 | ISBN-10: 0471121207 | ISBN-13: 978-
0471121206 | Edition: 2
我需要做以下两件事:
阅读所有初始信息,例如“发布日期:”或“ISBN-10” 并将其识别为属性
在我们知道它是一个属性之后,我想将它上传到一个 sql 数据库,以便发布日期是它所在的列。所有这些都假设是一排。
编辑:我知道如何将数据库与 PHP 和 Java 一起使用。鉴于我的输出,我只要求上传语法。有没有办法写一个“东西:识别属性:值|属性:上面的值模式?
我主要想把上面的答案读入一个数组。其中第一部分,“:”前面的部分是键,它后面的部分(“:”)是值
请评论您的代码。谢谢