我想在我的页面加载时抓住当前的热门话题(它可能是从叙利亚内战到运动队或衣柜故障的任何事情)。我希望它是一个简单的 Web 服务调用,例如:
string hotTopic = getHotTopic();
..但这可能“不会发生”。
那么我可以期待什么?在头脑风暴的过程中,我想抓住纽约时报、赫芬顿邮报和其他几个网站的头条新闻,然后解析 html 中的 h1 标签以查找多次出现的非常用词。我在正确的轨道上吗?是否有针对这一挑战的已知解决方案?
我想在我的页面加载时抓住当前的热门话题(它可能是从叙利亚内战到运动队或衣柜故障的任何事情)。我希望它是一个简单的 Web 服务调用,例如:
string hotTopic = getHotTopic();
..但这可能“不会发生”。
那么我可以期待什么?在头脑风暴的过程中,我想抓住纽约时报、赫芬顿邮报和其他几个网站的头条新闻,然后解析 html 中的 h1 标签以查找多次出现的非常用词。我在正确的轨道上吗?是否有针对这一挑战的已知解决方案?
人们总是可以从网站上拉下 RSS 提要并将其解析出来 - 但是并非每个网站都会为您拉下的文章提供“查看次数”(很难确定它是否是热点话题)。
我个人会去 Twitter 寻找热门话题——热门词或主题标签通常与新闻中真正的热门话题相吻合。超级碗或天气灾难等事件经常出现在那里。
要实现您的单一方法解决方案,您可能需要编写一个包装器。如果您使用的是Twitter API,那么您可以使用一些预制库来帮助实现这一目标。包装器将类似于:
(完全编造的代码)
string GetHotTopic()
{
var svc = new TwitterSvcWrapper();
var topics = svc.GetTrending("united states");
return topic[0].text;
}
我知道这并不一定允许您解析多个页面并找到一些主题,但也许它为您提供了一种发现可能趋势的方法。与我自己的想法相反,Twitter 也不总是最好的地方。愚蠢的项目可能会成为您可能不想使用的趋势,例如“#whatToSayAfter”......
我还想补充一点,一些网站声明它违反他们的使用条款来“抓取”数据。例如,(不是你会使用它),但 Xbox.com 禁止你在他们的ToS中抓取数据。(1.12)
只是一些想法-祝你好运!干杯!