0

我正在使用词干提取和 NLP 方法从文本文件中提取关键字。

我得到了输出关键字:

keywords = ['the lounge lizards', 'jazz', 'john lurie', 'musical', 'albums', 'bass guitar', 'drums', 'edit', 'erik satie', 'erik sanko']

# now to get numeric significant keywords 
# Applied this reg ex 
re.findall(r'\w+\s\d+.*?\s\w+', content)

numeric_keywords = ['in 1978 by', 'History\n2 Past', 'members\n3 Discography',    'albums\n3.2 Live', 'June 4th, 1979', 'October 7,1986): "The Lounge', 'In 1984 the', 'early 1990s; prominent']

有更好的方法来提取数字吗?两个输出都来自同一个文件。

4

0 回答 0