Python爬虫入门指南--爬虫技术的由来、发展与未来
import requests
from bs4 import BeautifulSoup
# 爬取指定网页的HTML内容
def fetch_html(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return "Error: Network response was not ok."
except requests.exceptions.RequestException:
return "Error: Network request failed."
# 解析HTML,提取指定数据
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
title = soup.find('title').text
return title
# 主函数,组装URL并调用函数获取和解析数据
def main():
url = 'https://www.example.com'
html = fetch_html(url)
parsed_data = parse_html(html)
print(parsed_data)
if __name__ == '__main__':
main()
这段代码使用了requests
库来发送网络请求,获取网页的HTML内容,然后使用BeautifulSoup
来解析HTML,提取网页的标题。这是爬虫技术的一个基本示例,展示了如何使用Python进行网络爬取和数据解析。
评论已关闭