从网页中爬链接的一个小技巧

Dec 2, 2011

1 min read

Computer Ed2k Link Verycd

没啥好多说的，从verycd中爬所有的ed2k链接。

lynx -dump -listonly -nonumbers <http://www.verycd.com/topics/XXX/> | grep ed2k >> ed2k.txt

要看到ed2k未转码的内容也不难。

import sys, urllib
with open(sys.argv\[1\], 'r') as fi: print urllib.unquote(fi.read())