Python学习从0开始——项目一day01爬虫
import requests
from bs4 import BeautifulSoup
# 设置代理服务器
proxies = {
'http': 'http://user:password@proxy.server.com:port',
'https': 'https://user:password@proxy.server.com:port'
}
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
def get_html(url, proxies=None, headers=None):
"""
获取网页HTML内容
:param url: 网页链接
:param proxies: 代理服务器(可选)
:param headers: 请求头(可选)
:return: 网页内容
"""
response = requests.get(url, proxies=proxies, headers=headers)
return response.text
def parse_html(html):
"""
解析HTML内容
:param html: 网页内容
:return: 解析后的数据
"""
soup = BeautifulSoup(html, 'html.parser')
# 解析数据的代码放这里
# 例如获取所有的段落
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.text)
def main():
url = 'http://example.com' # 替换为目标网址
html = get_html(url, proxies=proxies, headers=headers)
parse_html(html)
if __name__ == '__main__':
main()
这段代码提供了一个简单的网络爬虫框架,包括使用代理和请求头来发送HTTP请求,并使用BeautifulSoup进行网页内容的解析。开发者可以在parse_html
函数中添加具体的解析逻辑来提取所需数据。
评论已关闭