6

我需要为元素属性动态构造一个 XPath 查询,其中属性值由用户提供。我不确定如何清理或清理此值以防止 XPath 等效于 SQL 注入攻击。例如(在 PHP 中):

<?php
function xPathQuery($attr) {
    $xml = simplexml_load_file('example.xml');
    return $xml->xpath("//myElement[@content='{$attr}']");
}

xPathQuery('This should work fine');
# //myElement[@content='This should work fine']

xPathQuery('As should "this"');
# //myElement[@content='As should "this"']

xPathQuery('This\'ll cause problems');
# //myElement[@content='This'll cause problems']

xPathQuery('\']/../privateElement[@content=\'private data');
# //myElement[@content='']/../privateElement[@content='private data']

最后一个特别让人想起以前的 SQL 注入攻击。

现在,我知道事实上会有包含单引号的属性和包含双引号的属性。由于这些是作为函数的参数提供的,那么清理这些输入的理想方法是什么?

4

3 回答 3

6

XPath 实际上确实包含一种安全地执行此操作的方法,因为它允许以表达式的形式引用变量。$varnamePHP 的 SimpleXML 所基于的库提供了一个接口来提供 variables,但是您的示例中的 xpath 函数并未公开该接口。

作为一个真正多么简单的演示:

>>> from lxml import etree
>>> n = etree.fromstring('<n a=\'He said "I&apos;m here"\'/>')
>>> n.xpath("@a=$maybeunsafe", maybeunsafe='He said "I\'m here"')
True

那是使用lxml,它是与 SimpleXML 相同的底层库的 python 包装器,具有类似的xpath 函数。布尔值、数字和节点集也可以直接传递。

如果切换到功能更强大的 XPath 接口不是一种选择,那么当给定外部字符串时,一种解决方法将是(随意适应 PHP),如下所示:

def safe_xpath_string(strvar):
    if "'" in strvar:
        return "',\"'\",'".join(strvar.split("'")).join(("concat('","')"))
    return strvar.join("''")

返回值可以直接插入到您的表达式字符串中。由于这实际上不是很可读,因此它的行为方式如下:

>>> print safe_xpath_string("basic")
'basic'
>>> print safe_xpath_string('He said "I\'m here"')
concat('He said "I',"'",'m here"')

请注意,您不能在&apos;XML 文档之外的表单中使用转义,通用 XML 序列化例程也不适用。但是,XPath concat 函数可用于在任何上下文中创建具有两种引号类型的字符串。

PHP 变体:

function safe_xpath_string($value)
{
    $quote = "'";
    if (FALSE === strpos($value, $quote))
        return $quote.$value.$quote;
    else
        return sprintf("concat('%s')", implode("', \"'\", '", explode($quote, $value)));
}
于 2008-10-11T13:31:57.813 回答
-1

我将使用 DOM 创建一个单元素 XML 文档,使用 DOM 将元素的文本设置为提供的值,然后从 DOM 的 XML 字符串表示中获取文本。这将保证所有角色转义都正确完成,而不仅仅是我碰巧想到的角色转义。

编辑:我会在这种情况下使用 DOM 的原因是编写 DOM 的人已经阅读了 XML 推荐,而我没有(至少,没有他们所拥有的关心程度)。举一个简单的例子,如果文本包含 XML 不允许的字符(如 #x8),DOM 将报告解析错误,因为 DOM 的作者已经实现了 XML 推荐的第 2.2 节。

现在,我可能会说,“好吧,我将只从 XML 推荐中获取无效字符列表,然后将它们从输入中删除。” 当然。让我们看看 XML 推荐,然后……嗯,Unicode 代理块到底是什么?我必须编写什么样的代码才能摆脱它们?他们甚至可以首先进入我的文本吗?

让我们假设我想通了。XML 建议如何指定我不知道的字符表示的其他方面?大概。这些会对我尝试实施的内容产生影响吗?也许。

如果我让 DOM 为我进行字符编码,我就不必担心这些事情。

于 2008-10-09T20:07:59.603 回答
-1
function xPathQuery($attr) {
    $xml = simplexml_load_file('example.xml');
    $to_encode = array('&', '"');
    $to_replace = array('&amp;','&quot;');
    $attr = replace($to_encode, $to_replace, $attr);
    return $xml->xpath("//myElement[@content=\"{$attr}\"]");
}

好的,它有什么作用?

它将字符串中所有出现的 & 和 " 编码为 & 和 ",这应该为您提供特定用途的安全选择器。请注意,我还将 xpath 中的内部 ' 替换为 "。编辑:后来有人指出'可以转义为',因此您可以使用您喜欢的任何字符串引用方法。

于 2008-10-09T19:38:23.407 回答