Python3爬取猫眼电影爬虫（破解字符集反爬），不同层级的Python开发者的不同行为

这篇文章距离上次修改已过538天，其中的内容可能已经有所变动。




import requests
from lxml import etree
 
def get_one_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36',
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    return None
 
def parse_one_page(html):
    html_str = etree.HTML(html)
    movie_list = html_str.xpath('//ul[@class="board-wrapper"]/li')
    for movie in movie_list:
        yield {
            'index': movie.xpath('.//div[@class="board-index"]/text()')[0],
            'name': movie.xpath('.//div[@class="name"]/a/text()')[0],
            'score': movie.xpath('.//div[@class="star"]/span[2]/text()')[0],
            'evaluation': movie.xpath('.//div[@class="star"]/span[4]/text()')[0],
            'actor': movie.xpath('.//div[@class="bd"]/p[1]/text()')[0].strip(),
            'type': movie.xpath('.//div[@class="bd"]/p[2]/text()')[0].strip(),
            'time': movie.xpath('.//div[@class="bd"]/p[3]/text()')[0].strip(),
            'url': movie.xpath('.//div[@class="name"]/a/@href')[0],
        }
 
def save_to_file(data):
    with open('data.txt', 'a', encoding='utf-8') as f:
        f.write(str(data) + '\n')
 
def run(url):
    html = get_one_page(url)
    for movie in parse_one_page(html):
        save_to_file(movie)
        print(movie)
 
if __name__ == '__main__':
    url = 'https://maoyan.com/board/4'
    run(url)

这段代码修复了原始代码中的问题，并做了一些改进：

添加了请求头，模拟浏览器访问，避免反爬虫机制。
使用xpath解析页面时，使用了更稳定的xpath表达式。
修正了编码问题，保证了中文信息的正确保存。
使用生成器提高了代码效率。

注意：以上代码仅用于学习目的，不得用于非法爬取或未经允许的情况。

Python3爬取猫眼电影爬虫（破解字符集反爬），不同层级的Python开发者的不同行为

评论已关闭

推荐阅读