问题标签 [reuters]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
svm - 路透社数据集类
我正在研究使用 SVM 进行文本分类。我正在使用 arff 格式的 reuters 21578 modapte 数据集并使用 weka 对其进行分类。分类后我得到了两个类,即(-inf-0.5] 和(0.5-inf)。这些类是什么?我应该如何继续学习学习 svm?
python - Python包函数与C++签名不匹配
我正在尝试使用Pyrfa Python
包读取配置文件。这是我的代码:
此代码已从https://github.com/devcartel/pyrfa复制。运行此代码时,我收到以下错误消息。
Pyrfa
它以某种方式怀疑这与包装没有太大关系。有人有想法吗?
非常感谢!
python-3.x - 从 Keras 的路透社数据集中重建新闻文本
我似乎无法理解 Keras 的路透社数据集提供的数据集。
该集合是这样加载的:
据我了解,“x”数组是新闻故事中单词索引的序列(列表)数组,“y”数组是这些序列主题的数组。
但是,当我尝试使用提供的字典将其中一个序列的单词索引翻译成实际单词时:
顺序似乎没有意义。如何将序列转换回原始新闻?
编辑:在这里找到了一个类似的线程。似乎字典中的索引与数据集中的单词索引不匹配存在问题。但是重新下载数据并不能解决我的问题。
python-3.x - Python3:使用reuters 21578数据集进行多标签文本分类
我正在使用以下代码将文档分为体育、政治和金钱三类。我可以看到这段代码计算了精确召回和 F1。但是我无法找到一种方法来使用此代码来测试自定义文档以预测其标签。
致谢: https ://github.com/miguelmalvarez/reuters-tc/blob/master/notebook/Classification_Reuters.ipynb
python - 未找到资源路透社
我安装时使用的是windows系统,python 3.7:
导入没问题,我也已经在我的cmd中安装了nltk
但是当我执行代码时:
它有一些错误,我不知道如何修复它......但是,代码在我的 MacBook 上运行良好我想知道我使用 anaconda 的 windows 系统 ps 发生了什么,而在 windows 计算机上, anaconda 安装在 E:\
python - NLTK 路透社数据集未找到
我使用以下命令从 nltk 下载了路透社数据集:
我确认已下载数据集,并且可以在“C:/Users/username/AppData/Roaming/nltk_data”下看到它。
但是,当我想读取数据集时,python 看不到它!我收到以下错误:
我尝试手动创建一个目录“C:/Users/username/nltk_data”并将reuters.zip粘贴到那里,但这没有帮助!当我使用 nltk.download() 再次下载它时,它会显示以下内容:
有什么提示吗?我还想知道为什么python打印的路径同时包含斜杠/
和反斜杠\
?
python - keras.reuters.datasets 中是否有标签字典?
我最近开始使用 keras 编写神经网络。我设法让 AI 运行,预测路透社新闻专线数据集的类别。但是,我正在拼命寻找一种将我的预测(整数)转换为主题的方法。必须有一个字典——比如训练数据的 reuters.get_word_index——有 46 个条目,并将每个整数链接到它的主题(字符串)。谢谢你的帮助。
python-3.x - 如何使用 Python 获取路透社网站的一个子版块(例如中东)的 20 多个新闻标题链接?
我正在尝试在路透社网站上搜索与中东有关的所有新闻头条。网页链接:https ://www.reuters.com/subjects/middle-east
当我向下滚动时,此页面会自动显示以前的标题,但是当我查看页面源时,它只提供最后 20 个标题链接。
我试图寻找下一个或上一个超链接,通常会出现此类问题,但不幸的是,此页面上没有任何此类超链接。
我对所有这一切的经验非常有限,但我最好的猜测是,java 或页面使用的任何代码语言使它在向下滚动时会产生以前的结果,这也许是我需要弄清楚使用一些模块Python。
该代码进一步从每个链接中提取其他详细信息,但这与发布的问题无关。
python - 如何将 Reuters-21578 数据集作为 Python 中标记化功能的输入参数传递
我尝试将 Reuters-21578 数据集作为输入参数传递给 tokenize funktion def tokenize(text):
,它应该删除停用词、标记化、词干和小写。
结果,我只得到以下信息:
如果我将整个数据集传递给 tokenize 函数,那怎么可能呢?
python - pyrfa DLL 加载失败
我正在尝试使用 devcartel 开发的 pyrfa 模块。
我已经用通常的方法安装了这个包:
但是,运行使用该模块的脚本会给出:
pyrfa 模块是 Reuters 开发的基于 C++ 代码的 DLL 的包装器。我在哪里可以找到必要的 DLL?