0

我有一个从一些新闻门户网站接收新闻的应用程序,我想找到这个新闻的关键字并将它们保存在一个特殊的表格中,但我不知道如何找到这些关键字!

因为代码每 5 分钟运行一次,所以它使用了大量的服务器源,我希望没有繁重的代码!

我自己有一个老想法,按单词拆分文本并计算它们并获得前 5 个单词,但几乎总是关键字应该是“a”或“the”等

有什么建议么?

4

2 回答 2

1

查看自然语言工具包 ( NLTK ),包括免费提供的书籍。这将使您入门,尽管这是一个开放式问题。

于 2013-01-27T19:09:47.780 回答
1

您可以从 Gutenberg 项目 ( http://www.gutenberg.org/files/29765/29765-8.txt )下载英语词典,例如 Webster's Unabridged Dictionary,并将其解析为代词和介词,并将结果用作列表在您的计数中要忽略的单词。

基于上述内容的快速而肮脏的解析实验提供了以下列表:

AMONGST         A               ABOON           AGAINST         AMID            
AT              ATAFTER         BATING          BEHITHER        BESIDE          
BESIDES         BETWIXT         DURANTE         DURING          EMFORTH         
FOREBY          FORENENST       FROM            HE              HERS            
HERSELF         HIMSELF         HIMSELVE        HIR             HIS             
HO              I               ICH             IDEM            IK              
INTO            INWITH          IT              ITSELF          MALGRE          
MYSELF          MYSELVEN        O'              OF              ONESELF         
ONTO            OURSELVES       OUTCEPT         OUTTAKE         PER             
REGARDING       RESPECTING      SENZA           SHE             SITH            
THAT            THEM            THEMSELVES      THESE           THILK           
THOSE           THRU            THURGH          THY             THYSELF         
UMBE            UNNEAR          UPON            UPTILL          US              
VERSUS          WE              WHATE'ER        WHATEVER        WHATSOEVER      
WHICH           WHO             WHOEVER         WHOM            WHOMSOEVER      
WHOSE           WHOSESOEVER     WHOSO           WHOSOEVER       WITHOUTEN       
YER             YMEL            YOU             YOURS           YOURSELF        
YOW

如前所述,需要细化...

于 2013-01-27T21:03:14.653 回答