对于我的工作,我必须在生物医学研究和工业领域寻找潜在客户。
我使用模块 biopython 编写了一些非常方便的程序,它有一个很好的界面来搜索 NCBI。我还使用了clinical_trials 模块来搜索clinicaltrials.gov。
我现在想搜索专利数据库,如 EPO 或 USPTO,但我什至找不到任何 python 模块的踪迹。但也许我错过了一些明显的东西?
由于谷歌有专利搜索选项,我想知道是否可能有一个用于搜索谷歌的 python 模块,它可以适应只搜索专利?
对于我的工作,我必须在生物医学研究和工业领域寻找潜在客户。
我使用模块 biopython 编写了一些非常方便的程序,它有一个很好的界面来搜索 NCBI。我还使用了clinical_trials 模块来搜索clinicaltrials.gov。
我现在想搜索专利数据库,如 EPO 或 USPTO,但我什至找不到任何 python 模块的踪迹。但也许我错过了一些明显的东西?
由于谷歌有专利搜索选项,我想知道是否可能有一个用于搜索谷歌的 python 模块,它可以适应只搜索专利?
您至少可以使用任何 XML 解析工具(例如 lxml python 模块)解析 USPTO。
Gabe Fierro 有一篇关于这样做的好论文,可在此处获得:从 USPTO XML 提取和格式化专利数据(无付费墙)
Gabe 还在这个 google 小组中参与了一些关于这样做的有用讨论。
最后,如果您知道要查找的内容并且有足够的磁盘空间,您还可以获取本地存储的大量数据以进行处理。美国专利商标局在此处批量下载。
有更具体的问题请告诉我!我以前曾涉足过这个领域:)
此外,Google 专利搜索 API 已被弃用,但您现在可以使用 URL 标签通过主要的 Google 搜索 API 进行相同的搜索(我手边没有它们,但您可以通过 Google 专利搜索找到它们,这将得到响应由 google.com)。
更新:现在在家中,您想使用谷歌自定义搜索 API 进行专利搜索的标志是 &tbm=pts - 请注意,谷歌自定义搜索引擎并获取相同的代码对于专利搜索非常有益,因为提供的 JSON 具有具有专利特定字段的漂亮数据结构。
示例代码:
import requests
import urllib
import time
import json
access_token = <get yours by signing up for google custom search engine api>
cse_id = <get yours by signing up for google custom search engine api>
# Build url
start=1
search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/"
# &tbm=pts sets you on the patent search
url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text)
response = requests.get(url)
response.json()
f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w')
f.write(json.dumps(response.json(), indent=4))
f.close()
这将(一旦您添加免费的 API 访问信息)获取 Altera 拥有的前十项专利(作为示例)并将生成的 JSON 保存到文本文件中。调出您最喜欢的 Web JSON 编辑器并查看 JSON 文件。特别是我建议查看 ['items'][] 和子 ['pagemap']。只需解析这个 JSON,您就可以获得标题、缩略图、片段、标题、链接,甚至引用(如果相关)。
我不知道现成的 python 模块,但你可以构建自己的。USPTO 和 EPO 都有 API,可在http://www.epo.org/searching/free/ops.html和http://tsdr.uspto.gov/找到。
我不知道使用这些文档有多么容易,但您可以尝试制作一个简单的查询器来检索和解析结果。当然,您所追求的数据越广泛,编写模块的工作量就越多。