项目已完成:
1.爬虫模拟登陆:通过分析网站账号登陆的相关代码可以发现腾讯账号登陆需要得到用户的cookie和user-agent。通过cookie和user-agent进行模拟登陆。
2.抓取静态页面:通过python相关的requests和Beautiful库,可以有效抓取静态页面的信息。并对自己需要的信息进行提取,过滤和收集。
3.抓取动态页面:在网页的HTML中我们找不到动态页面信息,需要找到动态页面存储的网页,并且寻找规律将网页通过正则表达式匹配出来,然后用跟静态网页相同的方式进行信息提取。
4.利用数据库存储:将提取到的信息放入数据库,本项目用到的数据库是MongoDB。MongoDB是一个介于<