0

我有这个项目可以从 SEC Edgar 网站上抓取数据。部分任务是获取整个文件的内容,我今天只是测试其中的一些内容。

我遇到了这个大约 110 兆的文件(https://www.sec.gov/Archives/edgar/data/355437/000119312520189547/0001193125-20-189547.txt)。

我将包分解为组成 <DOCUMENT> 节点并根据 FILENAME 节点值以不同方式处理它们。对于基于 html/xml 的类型,我只是使用了

SgmlReader.ReadInnerXml();

抓住内脏,但在这个大文件上,它似乎进入了这个无限循环。在我使用调试器之前,它运行了 15 分钟,然后它就挂在了那个电话上。

有没有人遇到过这种情况?

我正在使用 SqmlReader 1.8.16。

我在变更日志页面上看到一条非常古老的评论,说存在这样一个错误终止 html 评论的错误,但在很多版本之前被列为已修复。

谢谢

4

0 回答 0