1

我想通过加载我自己的数据集来尝试一些算法。我对加载文本文件特别感兴趣(非常类似于 20 NewsGroups 数据集http://scikit-learn.org/stable/datasets/index.html#general-dataset-api)。是否有任何文档解释加载示例数据集以外的数据的格式(和过程)?

谢谢。

4

1 回答 1

2

scikit-learn 中的 TfidfVectorizer 和其他文本矢量化器类只需将 Python unicode 字符串列表作为输入。因此,您可以根据来源以您想要的方式加载文本:使用 SQLAlchemy 的数据库查询、来自 HTTP API 的 json 流、CSV 文件或文件夹中的随机文本文件。

对于最后一个选项,如果类信息存储在包含文本文件的文件夹名称中,您可以使用load_files实用程序函数。

于 2013-04-17T07:30:41.337 回答