网络爬虫(Python:Requests、Beautiful Soup笔记)
import requests
from bs4 import BeautifulSoup
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
def get_html(url):
"""
获取网页HTML内容
:param url: 网页URL
:return: HTML内容
"""
try:
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
else:
return None
except requests.RequestException:
return None
def parse_html(html):
"""
解析HTML内容
:param html: HTML内容
:return: 解析后的数据
"""
soup = BeautifulSoup(html, 'html.parser')
# 解析soup中的数据,提取需要的信息
# 例如提取所有的段落
paragraphs = soup.find_all('p')
return paragraphs
def main():
url = 'http://example.com' # 替换为目标网页URL
html = get_html(url)
if html:
paragraphs = parse_html(html)
for p in paragraphs:
print(p.get_text())
else:
print('Failed to retrieve the webpage')
if __name__ == '__main__':
main()
这段代码展示了如何使用Python的requests库来获取网页内容,以及如何使用Beautiful Soup来解析HTML内容。代码中的get_html
函数负责获取网页的HTML内容,parse_html
函数负责解析HTML内容,并提取需要的数据。main
函数则是程序的入口点,负责调用其他函数并处理逻辑流程。
评论已关闭