Python 原生爬虫
原生爬虫指的是不依赖于第三方库,只使用Python标准库进行网页爬取的爬虫。以下是一个简单的Python原生爬虫示例,它使用了urllib
库来获取网页内容。
import urllib.request
def fetch_page(url):
"""使用Python原生库获取网页内容"""
response = urllib.request.urlopen(url)
return response.read().decode('utf-8')
def main():
url = 'http://example.com' # 替换为你想爬取的网页地址
html_content = fetch_page(url)
print(html_content)
if __name__ == '__main__':
main()
这段代码定义了一个fetch_page
函数,它接受一个URL,然后使用urllib.request.urlopen
方法打开这个URL,并读取其内容。内容以字符串形式返回,并且使用UTF-8编码进行解码。
请注意,由于网络爬虫涉及到法律和道德的问题,请在爬取数据时始终遵守相关的法律法规和网站的robots.txt
规则。此外,过度爬取可能会对服务器造成负担,所以应当尽可能地减少请求频率。
评论已关闭