由于我真的不明白的原因,我使用的 REST API 不是输出 JSON 或 XML,而是使用一种特殊的结构化文本格式。以最简单的形式
SECTION_NAME entry other qualifying bits of the entry
entry2 other qualifying bits
...
它们不是制表符分隔的,就像结构看起来一样,而是空格分隔,并且限定位可能包含带空格的单词。SECTION_NAME 和条目之间的空格也是可变的,范围从 1 到几个(6 个或更多)空格。
此外,格式的一部分包含表单中的条目
SECTION_NAME entry
SUB_SECTION more information
SUB_SECTION2 more information
作为参考,真实数据的摘录(省略了一些部分),它显示了结构的使用:
ENTRY hsa04064 Pathway
NAME NF-kappa B signaling pathway - Homo sapiens (human)
DRUG D09347 Fostamatinib (USAN)
D09348 Fostamatinib disodium (USAN)
D09692 Veliparib (USAN/INN)
D09730 Olaparib (JAN/INN)
D09913 Iniparib (USAN/INN)
REFERENCE PMID:21772278
AUTHORS Oeckinghaus A, Hayden MS, Ghosh S
TITLE Crosstalk in NF-kappaB signaling pathways.
JOURNAL Nat Immunol 12:695-708 (2011)
当我试图将这种奇怪的格式解析成更理智的东西(然后可以转换为 JSON 的字典)时,我不确定该怎么做:在空格上盲目拆分会导致混乱(它也会影响带有空格的信息),而且我不确定如何确定一个部分何时开始。文本操作是否足以胜任这项工作,还是我应该使用更复杂的方法?
编辑:
我开始使用 pyparsing 来完成这项工作,但多行记录让我感到困惑,这是一个 DRUG 的示例:
from pyparsing import *
punctuation = ",.'`&-"
special_chars = "\()[]"
drug = Keyword("DRUG")
drug_content = Word(alphanums) + originalTextFor(OneOrMore(Word(
alphanums + special_chars))) + ZeroOrMore(LineEnd())
drug_lines = OneOrMore(drug_content)
drug_parser = drug + drug_lines
当应用于示例中的前 3 行 DRUG 时,我得到一个错误的结果(\n 转换为实际返回以方便阅读):
['DRUG', ['D09347', 'Fostamatinib (USAN)
D09348 Fostamatinib disodium (USAN)
D09692 Veliparib (USAN']]
如您所见,随后的条目被混为一谈,而我希望:
['DRUG', [['D09347', 'Fostamatinib (USAN)'], ["D09348", "Fostamatinib disodium (USAN)"],
['D09692', ' Veliparib (USAN)']]]