一个粗糙的Python小爬虫

网络上关于Python爬虫的好文章真不少,跟着做就可以了。另外,google搜到的结果比baidu的好太多了。

要爬取网页的内容,就离不开正则表达式。以前记得微博上老赵说,程序员必须会的东西(必会技能?大体就这意思。。),其中一个就是正则。

记得我第一次看到正则,被这个学术名字当场吓尿了,脑子里想到的是拉格朗日表达式、泰勒展开式什么的,感觉是个艰深的算法问题(其实也是呵呵)。

这是我写的第一个爬虫:

QQ图片20130717190406

爬的是某湾,看得出是我的pattern写的有点问题,乱七八糟的都抓过来了。不过网页上没有用的,特别是那些诱惑的色情广告(不会是定向投放的吧。。= =)都没啦,干净太多!

正则目前只是学了一点毛皮,晓得它的威力,还要找本书好好看看。

下一步,努力学习,争取爬点有质量的东西,嗷嗷!