【python基础】爬虫练习实例
import requests
from bs4 import BeautifulSoup
def get_html(url):
"""发送HTTP请求,获取网页内容"""
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return "页面无法访问"
except requests.RequestException:
return "发生错误"
def parse_html(html):
"""解析网页,提取标题和链接"""
soup = BeautifulSoup(html, 'html.parser')
for link in soup.find_all('a'):
print(link.get('href'))
def main():
url = 'http://example.com' # 替换为你要爬取的网站
html = get_html(url)
parse_html(html)
if __name__ == '__main__':
main()
这段代码首先定义了一个get_html
函数,用于发送HTTP请求并获取网页内容。然后定义了一个parse_html
函数,用于解析HTML内容,并打印出所有的链接。最后,在main
函数中调用了这两个函数,实现了简单的网页爬取。需要注意的是,这个例子没有处理反爬虫策略和网页结构变化,实际应用时需要进行相应的错误处理和适应性爬取。
评论已关闭