-1

我想在这个网站上做解析:CiteSeerx Result

我试过这个:

<?php

include('simple_html_dom.php');
$url = 'http://citeseerx.ist.psu.edu/search?q=mean&t=doc&sort=rlv&start=0';
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$curl_scraped_page = curl_exec($ch);

$html = new simple_html_dom();
$html->load($curl_scraped_page);

foreach ($html->find('div.result h3') as $title) {
   echo $title->plaintext . '<br/>';
}
echo '---<br>';

foreach ($html->find('div.result h3 a') as $link) {
   echo '\'http://citeseeerx.ist.psu.edu' . $link->href . '<br>';
}
echo '---<br>';

foreach ($html->find('div.pubinfo') as $info){
   echo $info->innertext. '<br>';
}
echo '---<br>';

foreach ($html->find('div.snippet') as $snippet){
   echo $snippet->innertext. '<br>';
}
?>

它有效并给了我我想要的东西,只是它jsessionid=...显示在结果的每一行$link

我该怎么做才能让它消失?我用谷歌搜索解决这个问题,但我发现的只是用 Java 解决它的方法,而不是 PHP。谢谢。

4

1 回答 1

1
 <a class="remove doc_details" href="/viewdoc/summary;jsessionid=103B4C6E9ADA3C8B17DD64BD57238F9D?doi=10.1.1.160.3832">

因为标签中的 href 包含 jsession id 部分:)

于 2013-06-28T05:45:33.330 回答