爬虫1 认识和基本爬取UA伪装
import requests
def crawl_website(url):
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
headers = {'User-Agent': user_agent}
response = requests.get(url, headers=headers)
if response.status_code == 200:
print('Success:', response.text)
else:
print('Failed to retrieve website')
crawl_website('https://www.example.com')
这段代码使用了requests库来发送一个HTTP GET请求到指定的URL。在请求中,我们通过设置headers参数来伪装为一个常见的浏览器,这样就可以绕过一些网站的反爬虫策略。如果请求成功,它会打印出网页的内容。
评论已关闭