0

我已经将我的书签从 FF 导出到一个 html 文件,但它太大而且太复杂,所以我需要从中删除一些 Firefox 行以使其更轻、更简单。

我可以替换 Notepad++ 中的基本内容,但我想我确实需要一些操作符,但我不知道如何让它正常工作。

例如,这是文件中包含指向 Logodesignlove 链接的行:

<A HREF="http://www.logodesignlove.com/" ADD_DATE="1256428672" LAST_MODIFIED="1256428672" ICON_URI="http://www.logodesignlove.com/favicon.ico" ICON="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABAAAAAQCAYAAAAf8/9hAAABDUlEQVQ4jWNgGF7gy9a9iS88Yw4803F49a6oYfHn589FGRgYGD4vWZv70iX80HMrv9MfF6zMw6r5Q/ukjkcMUv+R8TNzn+sv/eNPoou/753ZhKL5x8OHSo/Y5P+gK8SFH3Io//j+7Jk8wum79scQqxmGv2zcFQM34Ouhk96kGvBp5cZUuAGfnz8Xfcil8otoA5hl//+8cU8PJRxeJxZtJtaAlz5xJxkYGBhRDPh1/77BQ26V7wQDkFPp+9crN02xRuWnxavL8RrAIvv/8+otWXgT0/vu6ZMfMclgtZmgZrhLlm9MfSKi/Rmm+bm517VvF69ZEKUZBr68fCn+oWNK68cpC+qePXvGRZJmUgAAVs4XULOHB/oAAAAASUVORK5CYII=">Logo Design Love</A>

我需要删除所有我不关心的标签,例如 LAST_MODIFIED="1256428672"、ICON_URI="bunch of digits" ICON="bunch of characters" 等。当然我需要删除每个链接中的所有这些标签在列表中。

所以我想使用类似“查找所有标签 LAST_MODIFIED="anynumbers" 并将其替换为任何内容/删除它”之类的东西 - 但它不起作用。

示例它应该如何:
<A HREF="http://www.logodesignlove.com/">Logo Design Love</A>

到目前为止,感谢 Aleksandr,我删除了 LAST_MODIFIED 和 ADD_DATE 行。所以 LAST_MODIFIED="\d+" 工作得很好。但是 ICON 和 ICON_URI 仍然存在。我试过 ICON="\w+" - 但它不起作用。我想这与斜线有关。

4

2 回答 2

1

当更容易掌握你想要的东西并丢弃垃圾时,为什么还要寻找你不想要的东西?

(<A HREF=".*?").*?(>.*?>)

$1$2

编辑代码以适应 Notepad++ 现在我知道它不需要特殊字符转义。谢谢亚历山大。

于 2013-01-05T21:08:15.690 回答
0

阅读使用正则表达式(java regex 教程是一个很好的开始http://docs.oracle.com/javase/tutorial/essential/regex/),并尝试使用在线正则表达式工具之一来帮助编写和测试它,比如这个http://gskinner.com/RegExr/

例如,使用正则表达式删除“LAST_MODIF...”LAST_MODIFIED="\d+"

否则,您可能需要一个特定于 XML 的工具,或者甚至编写一个 XSL。但是,我对此知之甚少。

于 2013-01-05T21:01:53.907 回答