9

对于我的工作,我必须在生物医学研究和工业领域寻找潜在客户。

我使用模块 biopython 编写了一些非常方便的程序,它有一个很好的界面来搜索 NCBI。我还使用了clinical_trials 模块来搜索clinicaltrials.gov。

我现在想搜索专利数据库,如 EPO 或 USPTO,但我什至找不到任何 python 模块的踪迹。但也许我错过了一些明显的东西?

由于谷歌有专利搜索选项,我想知道是否可能有一个用于搜索谷歌的 python 模块,它可以适应只搜索专利?

4

2 回答 2

13

您至少可以使用任何 XML 解析工具(例如 lxml python 模块)解析 USPTO。

Gabe Fierro 有一篇关于这样做的好论文,可在此处获得:从 USPTO XML 提取和格式化专利数据(无付费墙)

Gabe 还在这个 google 小组中参与了一些关于这样做的有用讨论。

最后,如果您知道要查找的内容并且有足够的磁盘空间,您还可以获取本地存储的大量数据以进行处理。美国专利商标局在此处批量下载。

有更具体的问题请告诉我!我以前曾涉足过这个领域:)

此外,Google 专利搜索 API 已被弃用,但您现在可以使用 URL 标签通过主要的 Google 搜索 API 进行相同的搜索(我手边没有它们,但您可以通过 Google 专利搜索找到它们,这将得到响应由 google.com)。

更新:现在在家中,您想使用谷歌自定义搜索 API 进行专利搜索的标志是 &tbm=pts - 请注意,谷歌自定义搜索引擎并获取相同的代码对于专利搜索非常有益,因为提供的 JSON 具有具有专利特定字段的漂亮数据结构。

示例代码:

import requests
import urllib
import time
import json

access_token = <get yours by signing up for google custom search engine api>
cse_id = <get yours by signing up for google custom search engine api>

# Build url
start=1
search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/"
# &tbm=pts sets you on the patent search
url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text)

response = requests.get(url)

response.json()
f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w')
f.write(json.dumps(response.json(), indent=4))
f.close()

这将(一旦您添加免费的 API 访问信息)获取 Altera 拥有的前十项专利(作为示例)并将生成的 JSON 保存到文本文件中。调出您最喜欢的 Web JSON 编辑器并查看 JSON 文件。特别是我建议查看 ['items'][] 和子 ['pagemap']。只需解析这个 JSON,您就可以获得标题、缩略图、片段、标题、链接,甚至引用(如果相关)。

于 2013-11-21T23:15:31.693 回答
-2

我不知道现成的 python 模块,但你可以构建自己的。USPTO 和 EPO 都有 API,可在http://www.epo.org/searching/free/ops.htmlhttp://tsdr.uspto.gov/找到。

我不知道使用这些文档有多么容易,但您可以尝试制作一个简单的查询器来检索和解析结果。当然,您所追求的数据越广泛,编写模块的工作量就越多。

于 2013-03-13T09:38:23.757 回答