我有一个 Web 应用程序,它读取网页内容并使用 NLP 算法解析句子。我一直在使用正则表达式将内容拆分为单个句子,然后解析它们。
我想Â
从我的句子中删除类似的字符。我想,这些字符是因为 HTML 编码。
我显然不能使用正则表达式[^\w\d]+
或它的变体,因为我需要完整的标点符号。当然,我可以为每个标点符号添加单独的例外,[^\w\d\.,:]+
等等,但如果有更简单的方法可以做到这一点,我希望它,比如可能知道它是一个......有趣的角色的角色类?
任何帮助都感激不尽。谢谢。
编辑:该应用程序是用 PHP 构建的,我使用简单file_get_contents()
的方法从站点获取 HTML 数据并读取<p>
标签内的内容。