豆瓣top250电影剧情介绍数据采集

“”"
算法思路:
1.从给定URL中采集网站数据 urloppen()
2.从采集的数据中解析出a标签中href数据,作为新请求的url
3.解析出的新url作为采集请求的url再次发送请求
4.从新请求的数据中解析出电影的剧情介绍
5.保存到外部文档中
“”"

import urllib.request
import re
def getHtml(u):
# 伪装浏览器
h = {
‘User-Agent’: ‘Mozilla / 5.0(Windows NT 6.1;WOW64)’
}
r = urllib.request.Request(url=u, headers=h)
# 向服务器发送请求
request = urllib.request.urlopen®
# 从服务器上下载数据
html = request.read().decode()
#print(html)
# 定义正则表达式
#p = re.compile(’.?’,re.S|re.M)
#newurl = p.findall(html)
#print(newurl)
a = re.compile(’

(.?)
’,re.M|re.S|re.I)

a1 = a.findall(html)

#print(a1)

p = re.compile(’
.?’,re.S|re.M)

p1 = p.findall(str(a1))

#print(p1)

for i in p1:

r = urllib.request.Request(url=i,headers=h)

request = urllib.request.urlopen(i)

html = request.read().decode()

#print(html)

c = re.compile(’
(.?)’,re.S)

d = re.compile(’
(.*?)’, re.S)

c1 = c.findall(html)

d1 = d.findall(html)

for i in c1:

c = i.replace("\n","").strip()

print©

#print(c1)

getHtml(‘https://movie.douban.com/top250’)