python 调谷歌浏览器(python调用谷歌浏览器报错)
今天给各位分享python 调谷歌浏览器的知识,其中也会对python调用谷歌浏览器报错进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
![python 调谷歌浏览器(python调用谷歌浏览器报错)](http://www.gdxhedu.com/images/2024/02/ccuht01dus.jpg)
本文目录
一、如何在浏览器里抓取网页数据
在火狐浏览器和谷歌浏览器中可以非常方便的调试network(抓取HTTP数据包),但是在360系列浏览器(兼容模式或IE标准模式)中抓取HTTP数据包就不那么那么方便了。虽然也可使用HttpAnalyzer等工,但是毕竟都是收费软件。只需通过合适的过滤和操作,Wireshark也可抓取HTTP请求和响应。下面便说明具体操作。
假设在8080端口运行一个HTTP服务器,本例中使用Python Flask运行一个HTTP服务并侦听8080端口,实现一个简单的加法运算,网页中通过ajax提交两个数据,例如a=2&b=3,Flask处理之后返回一个json数据包,格式如{"result":5}。
http and ip.addr==192.168.1.106and tcp.port==8080
ip.addr==192.168.1.106:指定服务器ip地址,请根据实际情况替换。
tcp.port==8080,指定端口号,请根据实际情况替换。
点击apply,点击apply之后可过滤得到两个数据包,分别是HTTP请求和HTTP响应。
2.查看TCP数据流——Follow TCP Stream
在任意数据包上右击,选择Follow TCP Stream。该步骤可以过滤出和该HTTP数据包有关的TCP数据包,包括TCP 3次握手,TCP分片和组装等。
红色背景字体为HTTP请求,蓝色背景字体为HTTP响应
从User-Agent中可以看出,360浏览器兼容模式使用了IE8内核(该台计算机操作系统为XP,IE浏览器版本为8),这说明360浏览器使用了系统中的IE核。
3.总结相对于火狐或谷歌浏览器中使用调试工具抓取HTTP数据包,使用wireshark要显得复杂些,但是也可以达到最终效果。这些操作分为两步,第一步设置合理的过滤条件,第二步在任意数据包中选择Follow TCP Stream。
二、python爬虫如何定位需要点击展开的菜单
python爬虫定位需要点击展开的菜单的方法:
1、python如果只需要对网页进行操作,那就只要使用selenium这个第三方库就可以。将其下载安装好之后导入webdriver模块以及Select方法,代码如下:fromseleniumimportwebdriverfromselenium.webdriver.support.uiimportSelect
2、之后调用Chrome()方法就可以将谷歌浏览器打开,如果需要打开其他浏览器的话,那么只要调用不同的方法即可。而浏览器打开后还需要进入到网页之中,用浏览器对象调用get()方法并传入网页链接作为参数,代码如下:driver=webdriver.Chrome()driver.get('')
3、之后就是要定位到网页下拉框元素所在位置了,可以使用id或者name属性值这些定位方法。不过在这之前需要自己在网页中按F12调出开发者控制台,在Elements标签下找到下拉框并且记住它的id、name、class等等属性。再通过该属性对应的方法就可以在python中定位到这个下拉框元素,代码如下所示:s1=Select(driver.find_element_by_id('s1Id'))image.png
4、因为下拉框都是有默认值的,使用s1这个网页元素对象的属性text即可得到默认值。再调用elect_by_index()方法并传入索引值,可以按照顺序获取下拉列表内指定索引位置的值在python爬虫程序开发中,或者是模拟鼠标键盘控制电脑时,有些情况下需要定位到网页下拉菜单并且对其进行操作。
三、如何用python写爬虫来获取网页中所有的文章以及关键词
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。
类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,然后读取服务器端的响应资源。
在Python中,我们使用urllib2这个组件来抓取网页。
urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。
它以urlopen函数的形式提供了一个非常简单的接口。
最简单的urllib2的应用代码只需要四行。
我们新建一个文件urllib2_test01.py来感受一下urllib2的作用:
response= urllib2.urlopen(';)
我们可以打开百度主页,右击,选择查看源代码(火狐OR谷歌浏览器均可),会发现也是完全一样的内容。
也就是说,上面这四行代码将我们访问百度时浏览器收到的代码们全部打印了出来。
这就是一个最简单的urllib2的例子。
除了"http:",URL同样可以使用"ftp:","file:"等等来替代。
客户端提出请求,服务端提供应答。
urllib2用一个Request对象来映射你提出的HTTP请求。
在它最简单的使用形式中你将用你要请求的地址创建一个Request对象,
通过调用urlopen并传入Request对象,将返回一个相关请求response对象,
这个应答对象如同一个文件对象,所以你可以在Response中调用.read()。
我们新建一个文件urllib2_test02.py来感受一下:
req= urllib2.Request(';)
response= urllib2.urlopen(req)
可以看到输出的内容和test01是一样的。
urllib2使用相同的接口处理所有的URL头。例如你可以像下面那样创建一个ftp请求。
req= urllib2.Request(';)
在HTTP请求时,允许你做额外的两件事。
这个内容相信做过Web端的都不会陌生,
有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本,或其他WEB应用程序挂接)。
在HTTP中,这个经常使用熟知的POST请求发送。
这个通常在你提交一个HTML表单时由你的浏览器来做。
并不是所有的POSTs都来源于表单,你能够使用POST提交任意的数据到你自己的程序。
一般的HTML表单,data需要编码成标准形式。然后做为data参数传到Request对象。
编码工作使用urllib的函数而非urllib2。
我们新建一个文件urllib2_test03.py来感受一下:
url=';
values={'name':'WHY',
'location':'SDU',
'language':'Python'}
data= urllib.urlencode(values)#编码工作
req= urllib2.Request(url, data)#发送请求同时传data表单
response= urllib2.urlopen(req)#接受反馈的信息
the_page= response.read()#读取反馈的内容
如果没有传送data参数,urllib2使用GET方式的请求。
GET和POST请求的不同之处是POST请求通常有"副作用",
它们会由于某种途径改变系统状态(例如提交成堆垃圾到你的门口)。
Data同样可以通过在Get请求的URL本身上面编码来传送。
data['name']='WHY'
data['location']='SDU'
data['language']='Python'
url_values= urllib.urlencode(data)
name=Somebody+Here&language=Python&location=Northampton
url=';
full_url= url+'?'+ url_values
这样就实现了Data数据的Get传送。
有一些站点不喜欢被程序(非人为访问)访问,或者发送不同版本的内容到不同的浏览器。
默认的urllib2把自己作为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.7),
这个身份可能会让站点迷惑,或者干脆不工作。
浏览器确认自己身份是通过User-Agent头,当你创建了一个请求对象,你可以给他一个包含头数据的字典。
下面的例子发送跟上面一样的内容,但把自身模拟成Internet Explorer。
(多谢大家的提醒,现在这个Demo已经不可用了,不过原理还是那样的)。
url=';
user_agent='Mozilla/4.0(compatible; MSIE 5.5; Windows NT)'
values={'name':'WHY',
'location':'SDU',
'language':'Python'}
headers={'User-Agent': user_agent}
data= urllib.urlencode(values)
req= urllib2.Request(url, data, headers)
response= urllib2.urlopen(req)
以上就是python利用urllib2通过指定的URL抓取网页内容的全部内容,非常简单吧,希望对大家能有所帮助。
好了,本文到此结束,如果可以帮助到大家,还望关注本站哦!
声明:信息资讯网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者东方体育日报所有。若您的权利被侵害,请联系 删除。
本文链接:http://www.gdxhedu.com/news/142648.html