0

我不完全确定如何称呼它,但我已经搜索了几个短语并没有找到我需要的东西。

我有很多非结构化数据需要进入数据库。我以前用 Needlebase 做繁重的工作,然后从那里清理数据。但现在它已经不复存在了,我想要一种快速抓取文本片段的好方法,而不是选择、复制、粘贴、起泡、冲洗、重复。

理想情况下,我可以选择一些文本并且弹出窗口询问它是什么(来自用户定义的列表、标题、开始时间、图像路径等),然后将其标记为这样。自然,我需要能够标记记录的开头和结尾(所有行数据都是连续的,只是不是一种易于解析的格式)。

我可能会在几个小时内写出一些可以做到这一点的东西,但如果有东西存在,我不想重新发明轮子。我在 OS X 上,但我会对任何平台的软件感兴趣。

4

1 回答 1

0

您的数据是 HTML 格式的吗?如果是,您可以使用 Jsoup

于 2013-07-10T13:03:36.557 回答