哈希冲突漏洞的原理和对策 // Shell's Home

cpug上面最近在讨论一个严重级漏洞，漏洞的相关资料如下： ERT-VN:VU#903934 CVE-2011-4815 CVE-2011-3414 CVE-2011-4838 CVE-2011-4885

上面主要讨论的是这么一个概念，当用户post一个数据，而且这个数据又是一个form的时候，应用需要先将form解析为dict，然后才能方便的使用。例如a=1&b=2，可以解析为{'a':'1', 'b':'2'}。之所以1和2是字符串，是因为只有用户自己才清楚这个数据的类型。

通常情况下，这个form的key都是随机的，生成的hash碰撞概率很低，因此dict的默认实现——hash table没什么问题。但是当攻击者恶意构造数据的时候，情况就完全不同。我们首先讨论一下hash table的实现——开链法和二次探测法。

所谓开链，就是指对所有同余hash，将他们挂到一个hash表项上，形成一个链表。而所谓二次探测，就是在第一次hash冲突后，再进行一次hash，作为第二地址。

开链法对碰撞冲突是有先天缺陷的，因为同余碰撞的构造远比hash碰撞的构造简单。假定hash

table有11个表项，那么平均11次尝试就可以得到一个元素，和原始元素hash同余。如果选用这样的恶意key序列，在执行构造的时候，hash

table就退化为了链表。链表的插入复杂度是O(n^2)级的。而作为攻击者，为了获得n个hash同余对象，所需消耗的复杂度做如下估量。首先考虑hash table length和n同阶，因此以n作为hash table长度。这样每n次尝试就可以获得一个恶意元素，获得n个元素的复杂度为O(n^2)级。

也就是说，即使是sha256这样强的hash算法，只要保证哈希函数特性，对同样的值得到同样的哈希，就无法保证开链法的安全。

而二次探测法对这个是有先天抵抗的，二次探测法的第一次碰撞并不难构造，但是第二次哈希后依然保持同余的构造难度就由n增加到了n^2，多次碰撞的构造难度以此类推。虽然我没有完整的计算过这个值，但是猜测难度量级应当是O(n*n^n)级别的。这个级别基本就不用玩了——前提是哈希算法必须是安全的。

由于为了节约计算过程，因此python和php的hash算法都没有采用md5之类的高散列算法，而是一个很简单的算法。我摘抄一下Python2.7.2中的这段代码。python_string_hash.c

static long
string_hash(PyStringObject *a)
{
	register Py_ssize_t len;
	register unsigned char *p;
	register long x;

	if (a->ob_shash != -1)
		return a->ob_shash;

	len = Py_SIZE(a);
	p = (unsigned char *) a->ob_sval;
	x = *p << 7;

	while (--len >= 0)
		x = (1000003*x) ^ *p++;

	x ^= Py_SIZE(a);
	if (x == -1)
		x = -2;
	a->ob_shash = x;
	return x;
}

按照«python.leojay@gmail.com»的计算，以很短的时间，就可以构造出大量同样hash的字符串。既然hash相同，后续的同余不同余就没了意义。不过刚刚我复现了一下他的结论，在64位下有点问题。源码中是这么定义的。

typedef struct {
	PyObject_VAR_HEAD
	long ob_shash;
	static long string_hash(PyStringObject *a);

注意两者都是用的是long。C在64位下，long的长度是64位的。按此说，哈希碰撞的概率会进一步减小。为此我查了一下算法。

这篇论文里面提到了meet-in-middle-attack，这是一个以空间换时间的算法。当一个哈希函数可逆，内部状态和输出一样大，并且可以把一个算法分解成两个部分，每个部分使用一半的字符串的时候，可以实行这种攻击。攻击过程首先将算法分解为两部分，一部分计算出中间内部状态，另一部分计算从中间状态到结果。然后由于算法可逆，后半部分可以逆向为由某个固定值，经由一半的字符串，计算出一个中间状态。

攻击者首先枚举了第一部分的值和所有的内部状态，并且存入查找表（讽刺的是，这个最好用的就是hash table）。而后枚举第二部分的逆向中间状态，并在查找表中查找。当有对应后，将两部分拼接，就得到了碰撞字符串。

穷举的攻击复杂度大概是O(2^n)，而meet-in-middle-attack将复杂度降为了O(2^(n/2))。与此对应的，空间消耗大致是O(2^(n/2))。

python是采用上述哈希算法的二次探测法hash table，由于hash算法很容易找到大量同余字符，因此将这些字符组成一个form数据提交后，服务器在解析为dict的过程中，将消耗大量CPU时间。多次重发，服务器就死机了。

作为一个简单的对策，首先请先限制form表单提交的最大长度。冲突表单通常都高达上万条记录，即使一条记录5字节，也有50k大小。常规的表单一般都不会超过4k大小。由这一点可以很快过滤问题。当然，这个前提必须是——你可以先于框架获得处理数据的机会。php似乎是由框架主动完成这个过程的，因此很难对恶意数据直接返回。这使得php成为了本漏洞的重灾区。（这点是由其他人推测得到的，不一定准确，也不代表个人观点）php给出的补丁据说只是限制form最高可以提交100个key，从而规避了这个问题。

另一个对策是，对上述的算法使用一个随机值作为初始值，使得客户这里的哈希函数特定和服务器端的特定完全不一致。这使得构造服务器端冲突的概率减少了很多。但是这需要对源码进行修改，因此实行起来并不是那么快。而且同样的计算表明，这个思路还不一定可行。对初始值进行小幅修改后，又很快产生了大量碰撞。

最稳妥的对策是，像perl一样，采用Universal hashing作为基本算法。这个思路和随机值很类似，但是数学上更加严谨。假定有一组函数H，其中任何两个元素h1, h2，对集合中任何两个元素x, y，h1(x) == h2(y)的概率小于等于1/m，则称这组函数为universal family。其中m为hash目标值空间大小。满足这个条件后，服务器端在单次计算的时候采用同一个函数，可以保证哈希的正常工作，但是客户端无法做出碰撞。

从Universal hashing的算法时间来看，这是一个很古老的漏洞了。只是以前大家都没有在意。突然有一天，大家发现——原来世界还是很脆弱的。