0

我想在我的页面加载时抓住当前的热门话题(它可能是从叙利亚内战到运动队或衣柜故障的任何事情)。我希望它是一个简单的 Web 服务调用,例如:

string hotTopic = getHotTopic();

..但这可能“不会发生”。

那么我可以期待什么?在头脑风暴的过程中,我想抓住纽约时报、赫芬顿邮报和其他几个网站的头条新闻,然后解析 html 中的 h1 标签以查找多次出现的非常用词。我在正确的轨道上吗?是否有针对这一挑战的已知解决方案?

4

1 回答 1

2

人们总是可以从网站上拉下 RSS 提要并将其解析出来 - 但是并非每个网站都会为您拉下的文章提供“查看次数”(很难确定它是否是热点话题)。

我个人会去 Twitter 寻找热门话题——热门词或主题标签通常与新闻中真正的热门话题相吻合。超级碗或天气灾难等事件经常出现在那里。

要实现您的单一方法解决方案,您可能需要编写一个包装器。如果您使用的是Twitter API,那么您可以使用一些预制库来帮助实现这一目标。包装器将类似于:

(完全编造的代码)

string GetHotTopic() 
{

var svc = new TwitterSvcWrapper();
var topics = svc.GetTrending("united states");

return topic[0].text;
}

我知道这并不一定允许您解析多个页面并找到一些主题,但也许它为您提供了一种发现可能趋势的方法。与我自己的想法相反,Twitter 也不总是最好的地方。愚蠢的项目可能会成为您可能不想使用的趋势,例如“#whatToSayAfter”......

我还想补充一点,一些网站声明它违反他们的使用条款来“抓取”数据。例如,(不是你会使用它),但 Xbox.com 禁止你在他们的ToS中抓取数据。(1.12)

只是一些想法-祝你好运!干杯!

于 2013-05-31T04:38:59.770 回答