博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 爬虫入门3种方法
阅读量:5923 次
发布时间:2019-06-19

本文共 1226 字,大约阅读时间需要 4 分钟。

 Python 2.0

url = "http://www.baidu.com" print '第一种方法' response1 = urllib2.urlopen(url) print response1.getcode() print len(response1.read()) print '第二种方法' request = urllib2.Request(url) request.add_header("user-agent","Mozilla/5.0") response2 = urllib2.urlopen(request) print response2.getcode() print len(response2.read()) print '第三种方法' cj = cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) urllib2.install_opener(opener) response3 = urllib2.urlopen(url) print response3.getcode() print cj print response3.read()

Python 3.0

第一种方法import urllib.requestimport http.cookiejarurl="http://www.baidu.com"print('第一种方法:')response1 = urllib.request.urlopen(url)print(response1.getcode())print(len(response1.read()))print('第二种方法')request = urllib.request.Request(url)request.add_header('user-agent','Mozilla/5.0')response2 =urllib.request.urlopen(request)print(response1.getcode())print(len(response2.read()))print('第三种方法')cj = http.cookiejar.CookieJar()opener= urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))urllib.request.install_opener(opener)response3 =urllib.request.urlopen(url)print(response3.getcode())print(cj)print(response3.read())

 

 

 

参考:http://www.imooc.com/article/16363

转载地址:http://tuavx.baihongyu.com/

你可能感兴趣的文章
设计模式:装饰者
查看>>
CentOS minimal+VirtualBox 设置桥接DHCP网络连接
查看>>
OC高效率52之不要使用dispatch_get_current_queue
查看>>
Quartz2D
查看>>
栈与queue
查看>>
对于java我的看法
查看>>
Java Web中实现Servlet的方式
查看>>
74LVC245AD技术资料
查看>>
第三方库之 - SVProgressHUD
查看>>
struts-自定义标签
查看>>
ZHYcms开源内容管理系统源码阅读
查看>>
11个让你吃惊的 Linux 终端命令
查看>>
Caused by: java.lang.IllegalArgumentException: error at ::0 can't find referenced pointcut
查看>>
MySQL与MongoDB的操作对比
查看>>
由于没有远程桌面授权服务器可以提供许可证,远程会话被中断
查看>>
阿里的大数据好像挺牛的样子,好好研究下
查看>>
开源论坛系统/社群系统ThinkSNS+ PC端研发周报!
查看>>
Tomcat优化记录_数据源最大连接数_linux系统openfile最大限制
查看>>
什么是一致性Hash算法?
查看>>
jquery 返回顶部的两端代码
查看>>