为此尝试使用 pandas 库。确保也安装 lxml。
首先,让我们假设这是您的 html:
<table>
<tr><th>Sample</th><th>Gene</th><th>Cases,Controls</th></tr>
<tr><td>snow</td><td>NGF</td><td>1,2</td></tr>
<tr><td>sun</td><td>NGF</td><td>2,3</td></tr>
<tr><td>sun</td><td>NGF</td><td>1,0</td></tr>
<tr><td>snow</td><td>NGF</td><td>1,3</td></tr>
</table>
我还假设您将其读入一个名为html
.
import pandas
tables = pandas.io.html.read_html(html,header=0,infer_types=False)
# Pandas reads each table read from the HTML into a list,
# we only have one here
table = tables[0]
这用你的表做了一个DataFrame。
您现在可以对其进行操作,熊猫风格!特别是,您可能想要提取案例和控件。
# Break out those cases and controls into a DataFrame
case_control_list = table["Cases,Controls"].str.split(',',1).tolist(),
case_control = pandas.DataFrame(case_control_list, columns = ["Cases", "Controls"])