Python爬虫从入门到精通简单爬虫的实现_爬虫tl
import requests
from bs4 import BeautifulSoup
def get_html(url):
"""发送HTTP请求,获取网页内容"""
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return "页面请求失败"
except requests.RequestException:
return "请求出错"
def parse_html(html):
"""解析网页,提取需要的信息"""
soup = BeautifulSoup(html, 'html.parser')
# 假设我们要提取所有的段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.get_text())
def main():
url = "https://example.com" # 替换为你要爬取的网站
html = get_html(url)
parse_html(html)
if __name__ == "__main__":
main()
这段代码展示了如何使用requests库发送HTTP请求,以及如何使用BeautifulSoup库解析HTML并提取所需信息。代码中的get_html
函数负责发送请求,parse_html
函数负责解析HTML,并打印段落文本。main
函数则是程序的入口点,负责组织整个流程。在实际应用中,你需要根据目标网站的结构来调整解析代码,以提取你需要的数据。
评论已关闭