我正在尝试从 WARC 数据集 ( yahoo!webscope L2ValueError: Search for pattern exhausted
) 中获取一些纯文本,并在使用load()
python3 模块中的函数时保持会议warcat
。尝试了一些随机的 WARC 示例文件,一切正常。
该数据集确实要求提供进一步的提交许可(然后根据自述文件提供密码;WARC 文件是否带有密码?)但现在我没有能力发送传真。
我还检查了warcat
源代码,发现ValueError
当 file_obj.read(size) 为 False 时会引发 。好像没啥意思,所以来这里问。。。
编码:
>>> import warcat
>>> import warcat.model
>>> warc = warcat.model.WARC()
>>> warc.load('ydata-embedded-metadata-v1_0.warc')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python3.4/site-packages/warcat/model/warc.py", line 32, in load
self.read_file_object(f)
File "/usr/local/lib/python3.4/site-packages/warcat/model/warc.py", line 39, in read_file_object
record, has_more = self.read_record(file_object)
File "/usr/local/lib/python3.4/site-packages/warcat/model/warc.py", line 75, in read_record
check_block_length=check_block_length)
File "/usr/local/lib/python3.4/site-packages/warcat/model/record.py", line 59, in load
inclusive=True)
File "/usr/local/lib/python3.4/site-packages/warcat/util.py", line 66, in find_file_pattern
raise ValueError('Search for pattern exhausted')
ValueError: Search for pattern exhausted
提前致谢。