网络爬虫,又称为网页爬虫,是一种按照一定规则自动抓取互联网网页信息的程序或脚本。
爬虫的由来可以追溯到早期的搜索引擎发展阶段,早期的搜索引擎要收集大量的网页信息,为了实现这个目标,就需要有能够自动获取网页的程序。这样的程序最早的应用是在1990年左右的ARPANET(早期的互联网前身)上,用于传递新闻组帖子。随着互联网的发展,爬虫在各种场景中的应用也越来越广泛,包括但不限于数据分析、商业智能、机器学习等领域。
以下是一个简单的Python爬虫示例,使用requests和BeautifulSoup库:
import requests
from bs4 import BeautifulSoup
def get_html(url):
response = requests.get(url)
return response.text
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
return soup.find_all('a')
def print_links(links):
for link in links:
print(link.get('href'))
url = 'https://www.example.com'
html = get_html(url)
links = parse_html(html)
print_links(links)
这个简单的爬虫示例首先定义了一个获取HTML内容的函数,然后定义了一个解析HTML并找出所有<a>
标签的函数,最后定义了一个打印所有链接的函数。这个简单的爬虫可以作为爬虫编写的入门示例。