技术分享 | 基于 API 解析的 Python 爬虫
import requests
import json
import time
def get_data(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
'Accept-Encoding': 'gzip, deflate, br',
}
proxies = {
"http": "http://120.0.0.1:80",
"https": "https://120.0.0.1:443",
}
try:
response = requests.get(url, headers=headers, proxies=proxies)
if response.status_code == 200:
return response.json()
except requests.exceptions.RequestException as e:
print(e)
time.sleep(10)
def parse_data(data):
results = []
for item in data.get('data', []):
result = {
'title': item.get('title'),
'url': item.get('url'),
'source': item.get('source'),
'published_at': item.get('published_at'),
}
results.append(result)
return results
def save_data(data, file_path):
with open(file_path, 'a+', encoding='utf-8') as f:
for item in data:
f.write(json.dumps(item, ensure_ascii=False) + '\n')
f.flush()
def main():
url = 'https://api.example.com/data'
file_path = 'data.json'
data = get_data(url)
parsed_data = parse_data(data)
save_data(parsed_data, file_path)
if __name__ == '__main__':
main()
这个示例代码展示了如何使用Python进行简单的网络爬虫。它首先定义了一个获取数据的函数,使用了requests库来发送HTTP请求,并使用了代理和User-Agent来模拟浏览器行为。然后定义了一个解析数据的函数,它从响应中提取有用信息。最后,定义了一个保存数据的函数,它将解析后的数据以JSON格式保存到文件中。最后,在main函数中调用了这些函数,以完成整个爬虫的流程。
评论已关闭