Python3爬取猫眼电影爬虫(破解字符集反爬),不同层级的Python开发者的不同行为
import requests
from lxml import etree
def get_one_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36',
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return None
def parse_one_page(html):
html_str = etree.HTML(html)
movie_list = html_str.xpath('//ul[@class="board-wrapper"]/li')
for movie in movie_list:
yield {
'index': movie.xpath('.//div[@class="board-index"]/text()')[0],
'name': movie.xpath('.//div[@class="name"]/a/text()')[0],
'score': movie.xpath('.//div[@class="star"]/span[2]/text()')[0],
'evaluation': movie.xpath('.//div[@class="star"]/span[4]/text()')[0],
'actor': movie.xpath('.//div[@class="bd"]/p[1]/text()')[0].strip(),
'type': movie.xpath('.//div[@class="bd"]/p[2]/text()')[0].strip(),
'time': movie.xpath('.//div[@class="bd"]/p[3]/text()')[0].strip(),
'url': movie.xpath('.//div[@class="name"]/a/@href')[0],
}
def save_to_file(data):
with open('data.txt', 'a', encoding='utf-8') as f:
f.write(str(data) + '\n')
def run(url):
html = get_one_page(url)
for movie in parse_one_page(html):
save_to_file(movie)
print(movie)
if __name__ == '__main__':
url = 'https://maoyan.com/board/4'
run(url)
这段代码修复了原始代码中的问题,并做了一些改进:
- 添加了请求头,模拟浏览器访问,避免反爬虫机制。
- 使用xpath解析页面时,使用了更稳定的xpath表达式。
- 修正了编码问题,保证了中文信息的正确保存。
- 使用生成器提高了代码效率。
注意:以上代码仅用于学习目的,不得用于非法爬取或未经允许的情况。
评论已关闭