我正在开发一个脚本,从我是其中成员的特定 meetup.com 组的消息存档中提取消息 - http://www.meetup.com/opencoffee/messages/archive/
想法是将这些动态添加到 wordpress 站点,并允许人们搜索消息、自动标记消息等。
我遇到的问题是如何最好地对这些消息进行自动分类。我欢迎任何关于如何最好地解决这个问题以及什么是最有效的编程方式的想法和想法。
选项1
使用美味的 API 按主题领域(如金融、技术、商业等)查找标签来源,并按主题查找相关标签:-
http://delicious.com/tag/finance
http://delicious.com/tag/technology
如果消息包含这些标签,则该消息被分配到相应的类别。
我相信这可以工作,但不确定扫描这些标签的消息的最有效方法。
选项 2
查找代表我需要的类别的网站,例如 ft.com、金融经济学家等、技术 techcrunch 等,然后确定人们使用哪些标签来标记这些网站,并默认情况下确定这些标签是人们的方式与这些网站及其内容堆栈有关。
选项 3
将消息 url 传递到http://semanticproxy.com/(路透社加来项目的一部分)或使用 Open Calais API。我已经尝试过但没有取得多大成功,因为内容的可变深度并不总是足以返回有意义的分类法。
这是我通过 calais api 解析的示例消息:-
原始信息
http://www.meetup.com/opencoffee/messages/6045615/
加来结果
http://www.mashinteractive.com/opencoffee/calais.php
概括
就是这样。我欢迎任何关于方法的想法和想法,以及关于如何最好地处理选项 1 和 2 的消息扫描的提示。
仅供参考,迄今为止大约有 1,700 条消息,我猜我可能有 10 个类别,每个类别由 20 或 30 个标签定义。
如果有人愿意帮助开发一个 Wordpress 插件或类来做到这一点,我会非常高兴有你加入。请记住,我不是程序员,我只是在边缘修修补补,假装我是一个。
提前致谢
乔纳森 CEO
人群