技术分享 | 基于 API 解析的 Python 爬虫

作者：System 时间：2024年08月19日分类：所有,爬虫字数：1599

这篇文章距离上次修改已过504天，其中的内容可能已经有所变动。




import requests
import json
import time
 
def get_data(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
        'Accept-Encoding': 'gzip, deflate, br',
    }
    proxies = {
        "http": "http://120.0.0.1:80",
        "https": "https://120.0.0.1:443",
    }
    try:
        response = requests.get(url, headers=headers, proxies=proxies)
        if response.status_code == 200:
            return response.json()
    except requests.exceptions.RequestException as e:
        print(e)
        time.sleep(10)
 
def parse_data(data):
    results = []
    for item in data.get('data', []):
        result = {
            'title': item.get('title'),
            'url': item.get('url'),
            'source': item.get('source'),
            'published_at': item.get('published_at'),
        }
        results.append(result)
    return results
 
def save_data(data, file_path):
    with open(file_path, 'a+', encoding='utf-8') as f:
        for item in data:
            f.write(json.dumps(item, ensure_ascii=False) + '\n')
            f.flush()
 
def main():
    url = 'https://api.example.com/data'
    file_path = 'data.json'
    data = get_data(url)
    parsed_data = parse_data(data)
    save_data(parsed_data, file_path)
 
if __name__ == '__main__':
    main()

这个示例代码展示了如何使用Python进行简单的网络爬虫。它首先定义了一个获取数据的函数，使用了requests库来发送HTTP请求，并使用了代理和User-Agent来模拟浏览器行为。然后定义了一个解析数据的函数，它从响应中提取有用信息。最后，定义了一个保存数据的函数，它将解析后的数据以JSON格式保存到文件中。最后，在main函数中调用了这些函数，以完成整个爬虫的流程。

技术分享 | 基于 API 解析的 Python 爬虫

评论已关闭

推荐阅读