从网页中爬链接的一个小技巧
没啥好多说的,从verycd中爬所有的ed2k链接。
lynx -dump -listonly -nonumbers <http://www.verycd.com/topics/XXX/> | grep ed2k >> ed2k.txt
要看到ed2k未转码的内容也不难。
import sys, urllib
with open(sys.argv\[1\], 'r') as fi: print urllib.unquote(fi.read())
贝壳的壳
Copyright © 2024 Shell Xu - License
没啥好多说的,从verycd中爬所有的ed2k链接。
lynx -dump -listonly -nonumbers <http://www.verycd.com/topics/XXX/> | grep ed2k >> ed2k.txt
要看到ed2k未转码的内容也不难。
import sys, urllib
with open(sys.argv\[1\], 'r') as fi: print urllib.unquote(fi.read())