我将大量 URL(大约 100,000 个)存储在 XML 文件中(以及其他一些数据)。它在 URL 较少的情况下工作得很好,但是现在,XML 文件变得非常大(因为标签和缩进)并且解析速度很慢。所以我考虑将所有 URL 分组到一个 XML 元素中,为此我需要一个分隔符。作为一个例子,我想从这个开始:
<document>
<bigGroupOfURLs>
<OneURL>
<nameOfData1>data1_1</nameOfData1>
<nameOfData2>data1_2</nameOfData2>
<URL>www.site1.com</URL>
</OneURL>
<OneURL>
<nameOfData1>data2_1</nameOfData1>
<nameOfData2>data2_2</nameOfData2>
<URL>www.site2.com</URL>
</OneURL>
</bigGroupOfURLs>
<someOtherData>...</someOtherData>
</document>
对于这样的事情(但不使用#):
<document>
<bigGroupOfURLs>
data1#data2#www.site1.com#data1#data2#www.site2.com
</bigGroupOfURLs>
<someOtherData>...</someOtherData>
</document>
这些 URL 将来自 HTML 文件中的标签,因此它们可以带有各种非标准字符。例如,以下是可能包含的示例:
<a href="http://ja.wikipedia.org/wiki/メインページ">メインページ</a>
<a href="http://en.wikipedia.org/wiki/Stack Overflow">Stack Overflow</a>
在那里,我们可以看到 UTF-8 字符和一个空格。这些 URL 被正确解释,我想在它们出现时存储它们。那么,保证哪个字符永远不会出现在 URL 中呢?我希望它是一个可打印的字符。请注意,这将在 XML 文件中,因此我可能不应该使用字符</>
.