Python 2.7 我正在尝试编写“机器人检查”的结果(尽管我认为这适用于其他情况),其中我正在迭代数据帧。我努力了
import robotparser
import urlparse
import pandas as pd
df = pd.DataFrame(dict(A=['http://www.python.org'
,'http://www.junksiteIamtellingyou.com'
]))
df
A
0 http://www.python.org
1 http://www.junksiteIamtellingyou.com
agent_name = 'Test'
for i in df['A']:
try:
parser = robotparser.RobotFileParser()
parser.set_url(urlparse.urljoin(i,"robots.txt"))
parser.read()
except Exception as e:
df['Robot'] = 'No Robot.txt'
else:
df['Robot'] = parser.can_fetch(agent_name, i)
df
A Robot
0 http://www.python.org No Robot.txt <<<-- NOT CORRECT
1 http://www.junksiteIamtellingyou.com No Robot.txt
当然,正在发生的是迭代的最后一个值正在写入整个值列。Robot 的值应为“True”(可以通过从数据框中删除垃圾 URL 来证明。
我尝试了 .loc 的一些不同排列,但无法让它们工作。他们似乎总是添加行而不是更新现有行的新列。
那么,有没有办法指定要更新的列(使用函数结果)?也许使用 .loc(location),或者可能有另一种方式,例如使用 lambda?我会很感激你的帮助。