我正在尝试做一些看起来很简单的事情......我正在尝试从此链接中抓取路透社列表的公司名称:
http://www.reuters.com/finance/markets/index?symbol=us!spx&sortBy=&sortDir=&pn=
但是,我就是无法访问公司名称!真的,在玩了很多 xpath 查询之后,我在访问表时遇到了问题。我正在尝试获取诸如“3M 公司”和“雅培实验室”之类的名称
以下是我使用的代码片段:
scrape = []
companies =[]
import lxml
import lxml.html
import lxml.etree
urlbase = 'http://reuters.com/finance/markets/index?symbol=us!spx&sortBy=&sortDir=&pn='
for i in range(1:18):
url = urlbase+str(i)
content = lxml.html.parse(url)
item = content.xpath('XPATH HERE')
ticker = [thing.text for thing in item]
这是我一直在玩的xpath:
'//*[@id="topContent"]/div/div[2]/div[1]/table/tr[2]/td[1]/a'
'//*[@id="topContent"]/div/div[2]/div[1]/table/tbody/tr[2]/td[1]/a
'/html/body/div[3]/div[3]/div/div[2]/div/table/tbody/tr[3]/td/a'
'/html/body/div[3]/div[3]/div/div[2]/div/table/tr[3]/td/a'
我曾尝试通过: 访问该特定表
'//table[@class="dataTable sortable"]'
,但没有任何运气
谁能帮忙?我觉得这是一个知道自己在做什么的人能够很快解决的问题,谢谢!