我有一个从一些新闻门户网站接收新闻的应用程序,我想找到这个新闻的关键字并将它们保存在一个特殊的表格中,但我不知道如何找到这些关键字!
因为代码每 5 分钟运行一次,所以它使用了大量的服务器源,我希望没有繁重的代码!
我自己有一个老想法,按单词拆分文本并计算它们并获得前 5 个单词,但几乎总是关键字应该是“a”或“the”等
有什么建议么?
我有一个从一些新闻门户网站接收新闻的应用程序,我想找到这个新闻的关键字并将它们保存在一个特殊的表格中,但我不知道如何找到这些关键字!
因为代码每 5 分钟运行一次,所以它使用了大量的服务器源,我希望没有繁重的代码!
我自己有一个老想法,按单词拆分文本并计算它们并获得前 5 个单词,但几乎总是关键字应该是“a”或“the”等
有什么建议么?
您可以从 Gutenberg 项目 ( http://www.gutenberg.org/files/29765/29765-8.txt )下载英语词典,例如 Webster's Unabridged Dictionary,并将其解析为代词和介词,并将结果用作列表在您的计数中要忽略的单词。
基于上述内容的快速而肮脏的解析实验提供了以下列表:
AMONGST A ABOON AGAINST AMID
AT ATAFTER BATING BEHITHER BESIDE
BESIDES BETWIXT DURANTE DURING EMFORTH
FOREBY FORENENST FROM HE HERS
HERSELF HIMSELF HIMSELVE HIR HIS
HO I ICH IDEM IK
INTO INWITH IT ITSELF MALGRE
MYSELF MYSELVEN O' OF ONESELF
ONTO OURSELVES OUTCEPT OUTTAKE PER
REGARDING RESPECTING SENZA SHE SITH
THAT THEM THEMSELVES THESE THILK
THOSE THRU THURGH THY THYSELF
UMBE UNNEAR UPON UPTILL US
VERSUS WE WHATE'ER WHATEVER WHATSOEVER
WHICH WHO WHOEVER WHOM WHOMSOEVER
WHOSE WHOSESOEVER WHOSO WHOSOEVER WITHOUTEN
YER YMEL YOU YOURS YOURSELF
YOW
如前所述,需要细化...