Python爬取淘宝商品数据,价值千元的爬虫外包项目
以下是一个简单的Python爬虫示例,用于抓取淘宝商品数据。请注意,此代码仅用于学习目的,实际使用时应遵守相关法律法规,并遵循网站的robots.txt
规则。
import requests
from lxml import etree
def crawl_taobao_item(item_url):
headers = {
'User-Agent': 'Mozilla/5.0',
'Referer': 'https://www.taobao.com'
}
try:
response = requests.get(item_url, headers=headers)
response.raise_for_status()
response.encoding = response.apparent_encoding
html = etree.HTML(response.text)
# 提取商品标题
title = html.xpath('//div[@class="tb-detail-hd"]/h1/@data-title')[0]
print(f'商品标题: {title}')
# 提取商品价格
price = html.xpath('//div[@class="tb-rmb"]/text()')[0]
print(f'商品价格: {price}')
# 提取商品描述
desc = html.xpath('//div[@class="product-intro"]/descendant::text()')[0].strip()
print(f'商品描述: {desc}')
# 提取商品图片
image_urls = html.xpath('//div[@class="jqzoom"]/img/@src')
for image_url in image_urls:
print(f'商品图片: {image_url}')
except Exception as e:
print(f'爬取失败: {e}')
# 使用示例
crawl_taobao_item('https://item.taobao.com/item.htm?id=626896737810')
这段代码通过请求淘宝商品页面,使用XPath解析页面数据。请确保替换商品URL为你想要抓取的具体商品链接。
注意:由于爬虫技术能用于好的或者坏的目的,此代码仅用于学习目的。在实际应用中,应确保遵守网站的robots.txt
规则,并考虑使用更健壮的反爬策略(比如JavaScript渲染的内容)。对于商业目的,应该使用更专业的库和方法,并遵守相关法律法规。
评论已关闭