1

我正在尝试从新闻网站和博客中提取主体内容。

文档documents.analyzeSyntax通过将其document作为content页面的原始 HTML (utf-8) 并将文档type设置为HTML. 文档肯定包含 HTML 作为支持的内容类型。

然而,在实践中,生成的句子和标记与 HTML 标记混淆,就好像解析器认为输入是纯文本一样。就目前而言,这排除了我的用例的 GC NL API,并且可能还有许多其他的,因为通过自然语言处理网页是一项非常常见的任务。

作为参考,这里有一个蒲公英 API 的示例,其输出类型是人们期望给定 HTML 输入(或者更确切地说,在这种情况下是指向 HTML 页面的 URL 作为输入)的输出类型。

那么,我的问题是我是否遗漏了某些东西,可能是错误地调用了 API,还是 NL API 不支持 HTML?

4

1 回答 1

1

是的,它确实。

不确定您使用的是什么语言,但下面是使用客户端库的 python 示例:

from google.cloud import language

client = language.Client()

# document of type PLAIN_TEXT
text = "hello"
document_text = client.document_from_text(text)
syntax_text = document_text.analyze_syntax()

print("\n\ndocument of type PLAIN_TEXE:")
for token in syntax_text.tokens:
    print(token.__dict__)

# document of type HTML
html = "<p>hello</p>"
document_html = client.document_from_html(html)
syntax_html = document_html.analyze_syntax()

print("\n\ndocument of type HTML:")
for token in syntax_html.tokens:
    print(token.__dict__)

# document of type PLAIN_TEXT but should be HTML
document_mismatch = client.document_from_text(html)
syntax_mismatch = document_mismatch.analyze_syntax()

print("\n\ndocument of type PLAIN_TEXT but with HTML content:")
for token in syntax_mismatch.tokens:
    print(token.__dict__)

这对我有用,因为 html 标签<p></p>没有作为自然语言处理。

如果您完成此页面上的设置步骤,您可以快速尝试使用gcloud命令行工具:

gcloud beta ml language analyze-syntax --content="<p>hello</p>" --content-type="HTML"

于 2017-06-16T19:07:24.750 回答