python实验:网络爬虫
import requests
from bs4 import BeautifulSoup
def get_html(url):
"""
获取网页HTML内容
:param url: 网页的URL
:return: 网页的HTML内容
"""
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except requests.RequestException:
return None
def parse_html(html):
"""
解析HTML内容,提取指定信息
:param html: 网页的HTML内容
:return: 提取的信息列表
"""
soup = BeautifulSoup(html, 'html.parser')
# 假设我们要提取所有的段落文本
paragraphs = soup.find_all('p')
return [p.get_text() for p in paragraphs]
def main():
url = 'http://example.com' # 替换为你要爬取的网页URL
html = get_html(url)
if html:
parsed_info = parse_html(html)
for info in parsed_info:
print(info)
else:
print("Failed to retrieve HTML content")
if __name__ == '__main__':
main()
这段代码首先定义了一个get_html
函数来获取指定URL的HTML内容,然后定义了一个parse_html
函数来解析HTML并提取所有段落文本。最后,在main
函数中,我们使用这两个函数来抓取网页并打印提取的信息。在实际应用中,你需要替换example.com
为你要爬取的目标网站,并修改parse_html
函数以适应你的具体需求。
评论已关闭