我使用 Google Refine 处理凌乱的产品数据表,以便使用 Magmi/Dataflow 配置文件对它们进行格式化以上传到 Magento 商店。我仍在使用 Google Refine 2.5,因为它是最新的稳定版本。
供应商数据表中的描述通常充满了二进制字符和凌乱的 HTML,我需要对其进行大量操作和重新格式化。
我知道我可以使用 GREL / Python / Jsoup 的某种组合来完成我的任务,但是我在使用不同语言的语法移动时遇到了麻烦。
我的数据如下所示:
Some product data here. <ul><li>Bullet one <li> Bullet two</ul> <br /> Some other product data here. <span id="product-image><img src="image.png"></span>
使用以下代码段:value.parseHtml().select("img").toString()
我能够解析我想要的图像标签,但我无法使用replace()
GREL 中的函数删除/替换这些标签。我试图将表达式添加到替换函数的第一个字符串中,比如:value.replace(/value.parseHtml().select("img").toString()/, "")
和其他类似的函数都无济于事。
对于我当前的项目,我需要:1)删除所有<img>, <div>, <p> and <span>
标签,加上 2)解析 YouTube 视频链接并将其分离到单独的列中。
有人可以帮我语法/为我编写一个函数来完成这项任务(最好是对语法的解释)?