python 模拟谷歌浏览器,python 模拟浏览器selenium

大家好,如果您还对python 模拟谷歌浏览器不太了解,没有关系,今天就由本站为大家分享python 模拟谷歌浏览器的知识,包括python 模拟浏览器selenium的问题都会给大家分析到,还望可以解决大家的问题,下面我们就开始吧!

python 模拟谷歌浏览器,python 模拟浏览器selenium

本文目录

  1. python爬虫如何定位需要点击展开的菜单
  2. python怎么响应后端发送get,post请求的接口
  3. 怎么用python进行web开发

一、python爬虫如何定位需要点击展开的菜单

python爬虫定位需要点击展开的菜单的方法:

1、python如果只需要对网页进行操作,那就只要使用selenium这个第三方库就可以。将其下载安装好之后导入webdriver模块以及Select方法,代码如下:fromseleniumimportwebdriverfromselenium.webdriver.support.uiimportSelect

2、之后调用Chrome()方法就可以将谷歌浏览器打开,如果需要打开其他浏览器的话,那么只要调用不同的方法即可。而浏览器打开后还需要进入到网页之中,用浏览器对象调用get()方法并传入网页链接作为参数,代码如下:driver=webdriver.Chrome()driver.get('')

3、之后就是要定位到网页下拉框元素所在位置了,可以使用id或者name属性值这些定位方法。不过在这之前需要自己在网页中按F12调出开发者控制台,在Elements标签下找到下拉框并且记住它的id、name、class等等属性。再通过该属性对应的方法就可以在python中定位到这个下拉框元素,代码如下所示:s1=Select(driver.find_element_by_id('s1Id'))image.png

4、因为下拉框都是有默认值的,使用s1这个网页元素对象的属性text即可得到默认值。再调用elect_by_index()方法并传入索引值,可以按照顺序获取下拉列表内指定索引位置的值在python爬虫程序开发中,或者是模拟鼠标键盘控制电脑时,有些情况下需要定位到网页下拉菜单并且对其进行操作。

二、python怎么响应后端发送get,post请求的接口

测试用CGI,名字为test.py,放在apache的cgi-bin目录下:

print"Content-type: text/html\n"

if form.has_key("ServiceCode") and form["ServiceCode"].value!="":

print"<h1> Hello",form["ServiceCode"].value,"</h1>"

print"<h1> Error! Please enter first name.</h1>"

使用get方式时,请求数据直接放在url中。

url=""

res_data= urllib2.urlopen(req)

url=""

conn= httplib.HTTPConnection("192.168.81.16")

conn.request(method="GET",url=url)

使用post方式时,数据放在data或者body中,不能放在url中,放在url中将被忽略。

test_data={'ServiceCode':'aaaa','b':'bbbbb'}

test_data_urlencode= urllib.urlencode(test_data)

requrl=""

req= urllib2.Request(url= requrl,data=test_data_urlencode)

res_data= urllib2.urlopen(req)

test_data={'ServiceCode':'aaaa','b':'bbbbb'}

test_data_urlencode= urllib.urlencode(test_data)

requrl=""

headerdata={"Host":"192.168.81.16"}

conn= httplib.HTTPConnection("192.168.81.16")

conn.request(method="POST",url=requrl,body=test_data_urlencode,headers= headerdata)

对python中json的使用不清楚,所以临时使用了urllib.urlencode(test_data)方法;

模块urllib,urllib2,httplib的区别

httplib实现了http和https的客户端协议,但是在python中,模块urllib和urllib2对httplib进行了更上层的封装。

httplib.HTTPConnection(host[,port[,stict[,timeout]]])

这个是构造函数,表示一次与服务器之间的交互,即请求/响应

host标识服务器主机(服务器IP或域名)

strict模式是False,表示无法解析服务器返回的状态行时,是否抛出BadStatusLine异常

conn= httplib.HTTPConnection("192.168.81.16",80)与服务器建立链接。

2、HTTPConnection.request(method,url[,body[,header]])函数

method请求的方式,一般是post或者get,

url请求的资源,请求的资源(页面或者CGI,我们这里是CGI)

url=""请求CGI

url=""请求页面

body需要提交到服务器的数据,可以用json,也可以用上面的格式,json需要调用json模块

headers请求的http头headerdata={"Host":"192.168.81.16"}

test_data={'ServiceCode':'aaaa','b':'bbbbb'}

test_data_urlencode= urllib.urlencode(test_data)

requrl=""

headerdata={"Host":"192.168.81.16"}

conn= httplib.HTTPConnection("192.168.81.16",80)

conn.request(method="POST",url=requrl,body=test_data_urlencode,headers= headerdata)

conn在使用完毕后,应该关闭,conn.close()

3、HTTPConnection.getresponse()函数

这个是获取http响应,返回的对象是HTTPResponse的实例。

read([amt])获取响应消息体,amt表示从响应流中读取指定字节的数据,没有指定时,将全部数据读出;

getheader(name[,default])获得响应的header,name是表示头域名,在没有头域名的时候,default用来指定返回值

getheaders()以列表的形式获得header

date=response.getheader('date');

resheader=response.getheaders();

[('content-length','295'),('accept-ranges','bytes'),('server','Apache'),('last-modified','Sat,31Mar201210:07:02GMT'),('connection','close'),('etag','"e8744-127-4bc871e4fdd80"'),('date','Mon,03Sep201210:01:47GMT'),('content-type','text/html')]

date=response.getheader('date');

******************************************************************************************************************************************************************************************************************************************************

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。

类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,然后读取服务器端的响应资源。

在Python中,我们使用urllib2这个组件来抓取网页。

urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。

它以urlopen函数的形式提供了一个非常简单的接口。

最简单的urllib2的应用代码只需要四行。

我们新建一个文件urllib2_test01.py来感受一下urllib2的作用:

response= urllib2.urlopen(';)

我们可以打开百度主页,右击,选择查看源代码(火狐OR谷歌浏览器均可),会发现也是完全一样的内容。

也就是说,上面这四行代码将我们访问百度时浏览器收到的代码们全部打印了出来。

这就是一个最简单的urllib2的例子。

除了"http:",URL同样可以使用"ftp:","file:"等等来替代。

客户端提出请求,服务端提供应答。

urllib2用一个Request对象来映射你提出的HTTP请求。

在它最简单的使用形式中你将用你要请求的地址创建一个Request对象,

通过调用urlopen并传入Request对象,将返回一个相关请求response对象,

这个应答对象如同一个文件对象,所以你可以在Response中调用.read()。

我们新建一个文件urllib2_test02.py来感受一下:

req= urllib2.Request(';)

response= urllib2.urlopen(req)

可以看到输出的内容和test01是一样的。

urllib2使用相同的接口处理所有的URL头。例如你可以像下面那样创建一个ftp请求。

req= urllib2.Request(';)

在HTTP请求时,允许你做额外的两件事。

这个内容相信做过Web端的都不会陌生,

有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本,或其他WEB应用程序挂接)。

在HTTP中,这个经常使用熟知的POST请求发送。

这个通常在你提交一个HTML表单时由你的浏览器来做。

并不是所有的POSTs都来源于表单,你能够使用POST提交任意的数据到你自己的程序。

一般的HTML表单,data需要编码成标准形式。然后做为data参数传到Request对象。

编码工作使用urllib的函数而非urllib2。

我们新建一个文件urllib2_test03.py来感受一下:

url=';

values={'name':'WHY',

'location':'SDU',

'language':'Python'}

data= urllib.urlencode(values)#编码工作

req= urllib2.Request(url, data)#发送请求同时传data表单

response= urllib2.urlopen(req)#接受反馈的信息

the_page= response.read()#读取反馈的内容

如果没有传送data参数,urllib2使用GET方式的请求。

GET和POST请求的不同之处是POST请求通常有"副作用",

它们会由于某种途径改变系统状态(例如提交成堆垃圾到你的门口)。

Data同样可以通过在Get请求的URL本身上面编码来传送。

data['name']='WHY'

data['location']='SDU'

data['language']='Python'

url_values= urllib.urlencode(data)

name=Somebody+Here&language=Python&location=Northampton

url=';

full_url= url+'?'+ url_values

这样就实现了Data数据的Get传送。

有一些站点不喜欢被程序(非人为访问)访问,或者发送不同版本的内容到不同的浏览器。

默认的urllib2把自己作为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.7),

这个身份可能会让站点迷惑,或者干脆不工作。

浏览器确认自己身份是通过User-Agent头,当你创建了一个请求对象,你可以给他一个包含头数据的字典。

下面的例子发送跟上面一样的内容,但把自身模拟成Internet Explorer。

(多谢大家的提醒,现在这个Demo已经不可用了,不过原理还是那样的)。

url=';

user_agent='Mozilla/4.0(compatible; MSIE 5.5; Windows NT)'

values={'name':'WHY',

'location':'SDU',

'language':'Python'}

headers={'User-Agent': user_agent}

data= urllib.urlencode(values)

req= urllib2.Request(url, data, headers)

response= urllib2.urlopen(req)

以上就是python利用urllib2通过指定的URL抓取网页内容的全部内容,非常简单吧,希望对大家能有所帮助

三、怎么用python进行web开发

1、HTML(超文本标记语言)是网页的核心,学好HTML是成为Web开发人员的基本条件。HTML很容易学习的,但也很容易误用,要学精还得费点功夫。

2、随着HTML5的发展和普及,了解HTML5也将成为Web开发人员的必修课。

3、涉及到网页外观时,就需要学习CSS了,它可以帮你把网页做得更美观。

4、利用HTML和CSS模拟一些你所见过的网站的排版和布局(色彩,图片,文字样式等等)。

5、第二步:学习javascript,了解DOM

6、JavaScript是一种能让你的网页更加生动活泼的程序语言。学习JavaScript的基本语法,学会用javascript操作网页中dom元素。

7、接着学习使用一些javascript库,比如jquery是大部分WEB开发人员都喜欢用的,通过Jquery可以有效的提高JavaScript的开发效率。

8、你不必在这上面花太多精力,但对IIS、Apache基本配置要掌握,这方面的知识学起来也相对容易,不会花多长时间。

9、学习一点Unix和Linux的基本知识,因为大部分Web服务器都运行在Unix和Linux平台上。

10、第四步:学好一门服务器端脚本语言

11、服务器端脚本编程(后台开发)也是Web开发人员的基本功之一,你只需挑选一个服务器端脚本语言,然后学好它。

12、目前流行的服务器脚本语言有:php、asp.net、jsp、ruby、python、等。

13、要构建动态页面通常会使用到数据库,常用的数据库有SQLServer、Oracle、MySQL等,它们都会遵循标准的SQL原则。

14、通常asp.net程序使用SqlServer数据库,PHP、java使用Oracle、MySQL数据库。

15、选一个你喜欢的后台编程语言,结合之前学到的html,css,javascript前端技术,实现一个简单的留言本、论坛程序、进而实现一个简单的CMS(内容管理系统)

16、当你掌握了HTML,CSS,JavaScript和服务器端脚本语言后,就应该找一个Web框架加快你的Web开发速度,使用框架可以节约你很多时间。

17、比如.net的MVC,JAVA的SSH,php的cakephp、CodeIgniter、zend,ruby的ROR,python的dijango等等,其实里面都有一些相通之处。

18、整个开发过程你还可能会学习到一些工具的使用:

19、Visio,Dreamweaver,Vistual Studio、elipse、(Vim, EditPlus, Notpad++)、sqlserver、phpmyadmin,各种浏览器以及FireBug的插件,IE下的WebDevelopmentHelper、IETester等。如果你足够用心,你还发掘出很多不错的资源,例如MSDN,W3cSchool,一些前辈的博客,一些技术论坛等等,这都是你未来前进道路上的财富。如还想深入研究,学学http协议,理解什么是无状态,不然你永远做不好WEB开发,研究web程序服务端运行原理,还有tcp/ip,udp协议等。

20、从最简单的HTML到Web框架,内容还是不少,要想精通这里的每一样技术,都得下苦功夫才行。半年的时间,足够你对web开发产生一个有效的认识,这个时候,再思考你进一步学习的方向吧。

如果你还想了解更多这方面的信息,记得收藏关注本站。

声明:信息资讯网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者东方体育日报所有。若您的权利被侵害,请联系 删除。

本文链接:http://www.gdxhedu.com/news/174064.html