您要问的是如何使用 PHPCrawl 解析站点 A 中的特定内容和站点 B 中的一些其他特定内容。
对于站点特定的解析样式,可以遵循 if-else 方法:
for url in urls:
content = crawl(url)
if(url of type 1?):
extract_style1(content)
else-if(url of type 2?):
extract_style2(content)
else:
extract_styledefault(content)
对于特定的内容提取,可以使用以下算法:
注意:有一系列可用的解析技术,我在这里实现HTML DOM Parsing ..
// Create DOM from your PHP Crawl Data Source
$html = $page_data[source]
// Find all images
foreach($html->find('img') as $element)
echo $element->src . '<br>';
// Find all links
foreach($html->find('a') as $element)
echo $element->href . '<br>';
参考:
HTML DOM
PHPCrawl 示例