python - 在 python 上读取令牌

Question

我想从文本文档中读取令牌并检查特定关键字。我该怎么做？例如，我的文件如下所示：

<protein id="Q11" name="HUMAN" length="655" crc64="30E1C1D138">
    <match id="G3DSA:3.30.160.60" name="ZC2f_H2/iegse_NA-bd" dbname="GE3D" status="T" evd="HMPfm">
      <ipr id="IPR013087" name="Zinc finger, H2-type/inrase, D-bindg" tpe="Dain" />
      <ln stt="114" end="142" sc="1.0E-8" />
    </match>

（我想跳过第一行并在第二行搜索token，dbname必须等于GE3D。如果是我想存储stt号和结束号。）

*所以我这样做了，但我不知道为什么它只返回一个数字作为开始和结束，因为多个数字应该满足要求：from lxml import entree

文件名 = 'inQ14591.txt'

使用 open(filename,'rb') 作为 f：

root = etree.parse(f)
for ln in root.xpath("/protein/match[@dbname='GE3D']/ln"):
    start = ln.get("stt")
    end = ln.get("end")

打印 (stt)

打印结束

score 1 · Accepted Answer

这看起来很像 XML，您可以利用它来发挥自己的优势。

from lxml import etree

filename = "somefilename" # change this

with open(filename, 'rb') as f:
    root = etree.parse(f)
    for ln in root.xpath("/protein/match[@dbname='GE3D']/ln"):
        stt = ln.get("stt")
        end = ln.get("end")
        print "%s, %s" % (stt, end, )
        # do something else with stt and end

score 0 · Accepted Answer

好像你可以用解析它BeautifulSoup，但我不确定你在找什么

from BeautifulSoup import BeautifulSoup
text = '''<protein id="Q11" name="HUMAN" length="655" crc64="30E1C1D138">
    <match id="G3DSA:3.30.160.60" name="ZC2f_H2/iegse_NA-bd" dbname="GE3D" status="T" evd="HMPfm">
      <ipr id="IPR013087" name="Zinc finger, H2-type/inrase, D-bindg" tpe="Dain" />
      <ln stt="114" end="142" sc="1.0E-8" />
    </match>'''

soup= BeautifulSoup(text)

res=soup.findAll(dbname='GE3D')

根据您的评论更新以找到该stt值，您需要找到该行，ln然后使用以下标签获取标签stt：

stt_value = soup.findAll('ln')[0]['stt'] # u'114'
end_value = soup.findAll('ln')[0]['end'] # u'142'

python - 在 python 上读取令牌

2 回答 2

Related

Reference