www.gsyw.net > python获取网页数据

python获取网页数据

不知道你说的网页是指的什么,如果你说的是我保存了一网页在你的电脑上,那就直接用open函数打开,read函数读就行了.如果你说的是某个URL指向的网页内容,那就要用urllib2模块来抓取网页咯.

Python有个库叫Selenium,专门用于做网页自动化的,它可以获取网页里的数据.

requests库+ 正则表达式/dom库/xpath库等

在之前的文章中Python实现“维基百科六度分隔理论“之基础爬虫,我们实现了在一个网站上随机地从一个链接到另一个链接,但是,如果我们需要系统地把整个网站按目录分类,或者要搜索网站上的每一个页面,我们该怎么办?我们需要采集

import urllib.requestpage1_q=urllib.request.urlopen("http://www.baidu.com")text1=page1_q.read().decode("utf8")print(text1)

推荐:《pyspider 爬虫教程(二):AJAX 和 HTTP》足兆叉虫由于 AJAX 实际上也是通过 HTTP 传输数据的,所以我们可以通过 Chrome Developer Tools 找到真实的请求,直接发起真实请求的抓取就可以获得数据了.AJAX 一般是通过 XMLHttpRequest 对象接口发送请求的,XMLHttpRequest 一般被缩写为 XHR.

import webdb = web.database(dbn='postgres', db='mydata', user='dbuser', pw='')db.update('mytable', where="id = 10", value1 = "foo")

最简单可以用urllib,python2.x和python3.x的用法不同,以python2.x为例:import urllibhtml = urllib.open(url)text = html.read()复杂些可以用requests库,支持各种请求类型,支持cookies,header等再复杂些的可以用selenium,支持抓取javascript产生的文本

首先要知道这个url是用get还是post方法,然后看看请求头或者url有没有携带什么会产生变化的数据,你单独请求ajax页面的时候是要带上这些数据的.

这个需要借用网站的api,自己去找找看,还有可以用解析网页的模块自己抓取

网站地图

All rights reserved Powered by www.gsyw.net

copyright ©right 2010-2021。
www.gsyw.net内容来自网络,如有侵犯请联系客服。zhit325@qq.com