我可以知道如何使用 Tika 提取网页中表格形式的数字等信息吗?Tika 有为此目的的解析器吗?
谢谢
好吧,您可以在 tika 中提取网页。为此,您可以使用apache-tika's
HTMLParser
. 你会在这里得到你需要的一切
那么你也可以使用AutoDetectParser
which will autodetect content type and extract content
。AutoDetectParser
可以检测任何类型的文件/网址并将应用提取。
我可以知道如何使用 Tika 提取网页中表格形式的数字等信息吗?
--> tika 提取的内容就像一个raw
文本。我认为您不会以表格形式获得它。