我应该认为这个网站非常容易抓取。要了解发生了什么,请关闭浏览器中的 JavaScript 并尝试浏览该站点(为此,我使用 Firebug 中的 Disable->Disable JavaScript 菜单,这是一个 Firefox 插件)。
如果您转到第一个链接并粘贴您的字符串,您会在 POST 操作中获得一个表单,该表单实际上表明您的搜索正在进行中。它看起来像这样:
职位名称:蛋白质序列(333 个字母)
请求编号:NR8ZP8E1071
由于这个屏幕上没有太多的兴趣,我假设你不想从这里刮 - 但这实际上是你目前正在做的事情。
接下来发生的是一段 JavaScript 提交一个隐藏的表单,使用以下代码:
<SCRIPT LANGUAGE="JavaScript">
setTimeout('document.forms[0].submit();',1000);
</SCRIPT>
我的猜测是,在重负载时,这里的延迟(目前设置为 1000 毫秒,即 1 秒)会增加一点。隐藏的表格如下所示:
<form action="Blast.cgi" enctype="application/x-www-form-urlencoded" method="post" name="RequestFormat" id="RequestFormat"">
<input name="CMD" value="Get" type="hidden">
<input name="ALIGNMENTS" value="100" type="hidden">
<input name="ALIGNMENT_VIEW" value="Pairwise" type="hidden">
<input name="BLAST_PROGRAMS" value="blastp" type="hidden">
<input name="CDD_RID" value="data_cache_seq:180192" type="hidden">
<input name="CDD_SEARCH" value="on" type="hidden">
<input name="CDD_SEARCH_STATE" value="4" type="hidden">
<input name="CLIENT" value="web" type="hidden">
<input name="COMPOSITION_BASED_STATISTICS" value="2" type="hidden">
<input name="CONFIG_DESCR" value="2,3,4,5,6,7,8" type="hidden">
<input name="DATABASE" value="nr" type="hidden">
<input name="DESCRIPTIONS" value="100" type="hidden">
<input name="EQ_OP" value="AND" type="hidden">
<input name="EXPECT" value="10" type="hidden">
<input name="FILTER" value="F" type="hidden">
<input name="FORMAT_NUM_ORG" value="1" type="hidden">
<input name="FORMAT_OBJECT" value="Alignment" type="hidden">
<input name="FORMAT_TYPE" value="HTML" type="hidden">
<input name="FULL_DBNAME" value="nr" type="hidden">
<input name="GAPCOSTS" value="11 1" type="hidden">
<input name="GET_SEQUENCE" value="on" type="hidden">
<input name="HSP_RANGE_MAX" value="0" type="hidden">
<input name="JOB_TITLE" value="Protein Sequence (333 letters)" type="hidden">
<input name="LAYOUT" value="OneWindow" type="hidden">
<input name="LINE_LENGTH" value="60" type="hidden">
<input name="MASK_CHAR" value="2" type="hidden">
<input name="MASK_COLOR" value="1" type="hidden">
<input name="MATRIX_NAME" value="BLOSUM62" type="hidden">
<input name="MAX_NUM_SEQ" value="100" type="hidden">
<input name="MYNCBI_USER" value="9311188414" type="hidden">
<input name="NEW_VIEW" value="on" type="hidden">
<input name="NUM_DIFFS" value="0" type="hidden">
<input name="NUM_OPTS_DIFFS" value="0" type="hidden">
<input name="NUM_ORG" value="1" type="hidden">
<input name="NUM_OVERVIEW" value="100" type="hidden">
<input name="OLD_BLAST" value="false" type="hidden">
<input name="OLD_VIEW" value="false" type="hidden">
<input name="PAGE" value="Proteins" type="hidden">
<input name="PAGE_TYPE" value="BlastSearch" type="hidden">
<input name="PROGRAM" value="blastp" type="hidden">
<input name="QUERY_INDEX" value="0" type="hidden">
<input name="QUERY_INFO" value="Protein Sequence (333 letters)" type="hidden">
<input name="QUERY_LENGTH" value="333" type="hidden">
<input name="REPEATS" value="5755" type="hidden">
<input name="RID" value="NR8ZP8E1071" type="hidden">
<input name="RTOE" value="21" type="hidden">
<input name="SELECTED_PROG_TYPE" value="blastp" type="hidden">
<input name="SERVICE" value="plain" type="hidden">
<input name="SHORT_QUERY_ADJUST" value="on" type="hidden">
<input name="SHOW_LINKOUT" value="on" type="hidden">
<input name="SHOW_OVERVIEW" value="on" type="hidden">
<input name="USER_DEFAULT_MATRIX" value="4" type="hidden">
<input name="USER_DEFAULT_PROG_TYPE" value="blastp" type="hidden">
<input name="USER_TYPE" value="2" type="hidden">
<input name="WORD_SIZE" value="3" type="hidden">
<input name="db" value="protein" type="hidden">
<input name="stype" value="protein" type="hidden">
<input name="x" value="41" type="hidden">
<input name="y" value="12" type="hidden">
</form>
这也创建了一个对程序的 POST 请求,并且最感兴趣的是RID
将请求与您的初始查询参数链接起来的字段。这可能存储在数据库或临时文件中,并分配有一个 ID,该 ID 在几小时内到期。
提交此表单时,会提供许多有趣的信息,并在创建它的表单的 POST 请求中呈现。上述字段之一可能指定要显示的初始对齐数。如果你然后重新打开 JavaScript,你会发现指向页面的末尾(它本身已经是几个屏幕)将使用这个程序加载另一个块:
http://blast.ncbi.nlm.nih.gov/t2g.cgi?CMD=Get&RID=NR8ZP8E1071&OLD_BLAST=false&DESCRIPTIONS=0&NUM_OVERVIEW=0&GET_SEQUENCE=on&DYNAMIC_FORMAT=on&ALIGN_SEQ_LIST=gi|160797,gi|9816,gi|121273,gi|428230092, gi|417051&HSP_SORT=0&SEQ_LIST_START=1&QUERY_INDEX=0&SHOW_LINKOUT=on&ALIGNMENT_VIEW=成对&MASK_CHAR=2&MASK_COLOR=1&LINE_LENGTH=60
有趣的是,这里使用了 GET 请求。使用 Firefox 中的网络监视器,我触发了一系列这些,以查看是否可以发现一系列递增的数字。我发现它SEQ_LIST_START
从 1 开始并以 5 为单位递增,但我不确定其中的元素ALIGN_SEQ_LIST
来自哪里——可能来自当前页面。值得你自己看看,看看你是否能发现任何东西——特别是因为你会以我不知道的方式理解主题。
您也许可以修改此链接中的一些查询字符串参数,以查看是什么控制了返回的项目数。但是,请注意:如果您请求他们的系统习惯的更大的集合,您可能会被注意到并在您的 IP 地址上放置一个块。
此外,请记住,如果您抓取网站,您就是将成本转嫁给第三方。由于数据似乎是免费提供的,这在某种程度上是他们可以接受的,也是他们已经花费的资金的好处。但是,请注意您在他们的服务器上放置的负载:不要请求过大的块,并在每个请求之间放置几秒钟的延迟。
如果您打算获取大量数据(例如超过半 GB),则在几秒钟和几分钟之间交替等待,或者可能在夜间(他们的时间)集中您的下载,因为他们的服务器可能较少忙碌的。未能作为爬虫“负责任地行事”可能会将您的 IP 范围置于其阻止列表中,在最坏的情况下可能构成拒绝服务攻击。
所以,总结一下,这就是你需要做的:
- 发出检索表单的初始 POST 请求
- 等待几秒钟
- 获取响应(尤其是请求 ID)并在新的 POST 中重新提交该数据
- 从屏幕上收集数据
- 在第二个程序中使用 GET 请求获取新数据
- 从响应中收集新数据
愿意修改你的 POST 和 GET 参数来看看效果,玩得开心!