以下是使用httpClient
实现简单网页爬虫的示例代码:
import http.client
def fetch_page(host, path):
# 建立连接
conn = http.client.HTTPSConnection(host)
# 发送请求
conn.request("GET", path)
# 获取响应
response = conn.getresponse()
data = response.read()
# 关闭连接
conn.close()
return data.decode()
def crawl_web_pages(url):
# 解析URL
from urllib.parse import urlparse
parsed_url = urlparse(url)
host = parsed_url.hostname
path = parsed_url.path
if path == '':
path = '/'
# 获取页面内容
html_content = fetch_page(host, path)
# 打印页面内容
print(html_content)
# 使用示例
crawl_web_pages('https://www.example.com')
这个简单的爬虫示例仅用于演示目的,并不适合用于大规模的网页爬取,因为它没有实现如爬取计划、页面解析、异常处理、并发请求等功能。真实的爬虫需要考虑更多的因素,例如网页的robots.txt协议、限制请求频率、处理JavaScript渲染的页面等。