Goose 是一个从 url 中提取句子、照片、图片等的工具。这个工具是用python写的。所有代码都在以下 URL 中。
https://github.com/grangier/python-goose/tree/develop/goose
我的主要目的是为当前版本中未包含的其他语言添加处理。
首先,我阅读了教程,通过设置“stop_words”参数,可以使用中文和韩文和阿拉伯文。
因此,我还在整个包中搜索了“stop_words”这个概念。
我找到了以下 python 类。
类 StopWords(object): 类 StopWordsChinese(StopWords): 类 StopWordsArabic(StopWords): 类 StopWordsKorean(StopWords):
我还发现了用各种语言编写的停用词的文本文件。这些文件所在的地方就是上面URL中的/resource/text/。
QUESTION 1: 包中是否还有其他组件可以重写这些 Goose 代码并添加日语和所有其他语言的版本,这些版本不包含在最新版本中?
.
问题 2:作为第一步,我想添加日语程序。是否有从日语 URL 中抓取网页的提示?