豆瓣top250电影剧情介绍数据采集
“”"
算法思路:
1.从给定URL中采集网站数据 urloppen()
2.从采集的数据中解析出a标签中href数据,作为新请求的url
3.解析出的新url作为采集请求的url再次发送请求
4.从新请求的数据中解析出电影的剧情介绍
5.保存到外部文档中
“”"
import urllib.request
import re
def getHtml(u):
# 伪装浏览器
h = {
‘User-Agent’: ‘Mozilla / 5.0(Windows NT 6.1;WOW64)’
}
r = urllib.request.Request(url=u, headers=h)
# 向服务器发送请求
request = urllib.request.urlopen®
# 从服务器上下载数据
html = request.read().decode()
#print(html)
# 定义正则表达式
#p = re.compile(’.?’,re.S|re.M)
#newurl = p.findall(html)
#print(newurl)
a = re.compile(’
(.?)
’,re.M|re.S|re.I)
a1 = a.findall(html)
#print(a1)
p = re.compile(’
.?’,re.S|re.M)
p1 = p.findall(str(a1))
#print(p1)
for i in p1:
r = urllib.request.Request(url=i,headers=h)
request = urllib.request.urlopen(i)
html = request.read().decode()
#print(html)
c = re.compile(’
(.?)’,re.S)
d = re.compile(’
(.*?)’, re.S)
c1 = c.findall(html)
d1 = d.findall(html)
for i in c1:
c = i.replace("\n","").strip()
print©
#print(c1)
getHtml(‘https://movie.douban.com/top250’)