1

我喜欢跟踪delicious.com/popular RSS 提要。但是,最近这些项目中的亚洲页面越来越多。由于我不懂任何亚洲语言,我想以某种方式从提要中过滤它们并节省一些时间。

我一直在尝试使用Yahoo 管道制作一些东西,但无法让它工作。

任何人有任何想法如何使这项工作?

4

2 回答 2

1

我在http://pipes.yahoo.com/pipes/pipe.info?_id=yJh1aRp_3hGaPi23tPvyrQ运气不错

管道的来源包含所有信息,但关键位是使用正则表达式^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\]~]+$` 运行过滤器。

这将过滤掉任何在标题中使用标准 ASCII 以外的任何内容的提要。不幸的是,这意味着它还会过滤诸如“简历”之类的单词,但是您应该很容易调整正则表达式以包含来自您所知道的语言的常见非英语字符。

于 2009-08-02T04:13:55.933 回答
0

您可能希望跳过超过 X% 的字符不是来自分配给您可以理解的那些语言的脚本的代码块的标题。例如,如果您无法阅读希腊语、俄语、阿拉伯语、希伯来语、亚美尼亚语、中文、日语、韩语、印度语等,请拒绝超过(例如)10% 的字符不在 U+0000 到范围内的标题U+0233。这给你留下了拉丁字母。留出 10% 的边距是为了标点符号;技术文章也可能使用不在基本字母表中的符号。

于 2009-08-02T04:45:16.180 回答