java - 使用java从文本文件中提取特定的url

Question

我有一个文本文档，其中有一堆表单的 url /courses/......./.../.. ，从这些 url 中，我只想提取那些表单的 url /courses/.../lecture-notes。表示以开头/courses和结尾的网址/lecture-notes。有人知道使用正则表达式或仅通过字符串匹配的好方法吗？

score 5 · Accepted Answer

这是另一种选择：

Scanner s = new Scanner(new FileReader("filename.txt"));

String str;
while (null != (str = s.findWithinHorizon("/courses/\\S*/lecture-notes", 0)))
    System.out.println(str);

给定一个filename.txt与内容

Here /courses/lorem/lecture-notes and
here /courses/ipsum/dolor/lecture-notes perhaps.

上面的片段打印

/courses/lorem/lecture-notes
/courses/ipsum/dolor/lecture-notes

score 1 · Accepted Answer

假设您每行有 1 个 URL，可以使用：

    BufferedReader br = new BufferedReader(new FileReader("urls.txt"));
    String urlLine;
    while ((urlLine = br.readLine()) != null) {
        if (urlLine.matches("/courses/.*/lecture-notes")) {
            // use url
        }
    }

score 1 · Accepted Answer

以下将只返回中间部分（即：排除/courses/和/lectures-notes/：

Pattern p = Pattern.compile("/courses/(.*)/lectures-notes");
Matcher m = p.matcher(yourStrnig);

if(m.find()).
  return m.group(1) // The "1" here means it'll return the first part of the regex between parethesis.

java - 使用java从文本文件中提取特定的url

3 回答 3

Related

Reference