下午好,
感谢您帮助我解决这个问题。
我有兴趣抓取的列表中有一组 > 5000 个 URL。我已经使用 lapply 和 readLines 使用下面的示例代码来提取这些网页的文本:
multipleURL <- c("http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?ndc=0002-1200&start=1&labeltype=all", "http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?ndc=0002-1407&start=1&labeltype=all", "http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?ndc=0002-1975&start=1&labeltype=all")
multipleText <- lapply(multipleURL, readLines)
现在我想在这些文本中的每一个中查询“放射性”这个词。我只是想弄清楚文本中是否提到了这个术语并且一直在使用逻辑 grep 命令:
radioactive <- grepl("radioactive" , multipleText, ignore.case = TRUE)
当我计算列表中包含“放射性”一词的项目数时,它返回的计数为 0:
count(radioactive)
x freq
1 FALSE 3
但是,粗略查看每个 URL 的网页后发现,第一个链接 ( http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?ndc=0002-1200&start=1&labeltype=all ) 在事实上包含放射性这个词。我们的“multipleText”列表甚至包括放射性这个词,尽管我们的 grepl 命令似乎没有选择它。
任何关于我做错了什么的想法将不胜感激。
非常感谢,
克里斯