java - PDI 勺步骤中的 HTML 抓取（用户定义的 java 类）

Question

您好正在使用该HTTP Client步骤获取网站的源代码。我需要刮掉一行的特定部分。

示例行：<a href="....." ......>TEXT I WANT</a>

所以我想我会在 PDI 中使用 UDJC 并首先将文本块分成几行，String[] lines = code.split("\n+");然后循环遍历数组并使用 if 条件（即正则表达式检查）查看我是否有正确的行。

for(String line : lines){
        if line.matches(".*a href.*"){
            String outputString = code;
            break;
        }
    }

（我也在一个没有 PDI 的纯 Java IDE 中尝试这个）虽然我从来没有受到打击。知道如何解决这个问题吗？或者有没有更快更简单的方法来获得我想要的块？

score 1 · Accepted Answer

在类似的情况下，我会使用过滤步骤执行您想要的操作

转换步骤：

1 回答 1