2024年最新【app爬虫】某宝详情页《问大家》数据采集分析
import requests
from pyquery import PyQuery as pq
# 请求详情页URL,并获取页面内容
def get_page_content(url):
headers = {
'User-Agent': '自己的User-Agent',
'Referer': 'https://detail.tmall.com/'
}
try:
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
except requests.RequestException:
return None
# 解析页面并提取《问大家》数据
def parse_and_extract_qa(page_content):
doc = pq(page_content)
qa_items = doc('.tm-qablock').items()
qa_data = []
for item in qa_items:
question = item.find('.tm-qablock-question').text()
answer = item.find('.tm-qablock-answer').text()
qa_data.append({
'question': question,
'answer': answer
})
return qa_data
# 示例使用
if __name__ == '__main__':
url = 'https://detail.tmall.com/item.htm?id=622598955172&rn=62d55172c4f6e9e692846df6d1cbe28d&abbucket=10'
page_content = get_page_content(url)
qa_data = parse_and_extract_qa(page_content)
for data in qa_data:
print(data)
这段代码首先定义了get_page_content
函数来发送请求并获取页面内容,然后定义了parse_and_extract_qa
函数来解析页面并提取《问大家》数据。最后,在if __name__ == '__main__':
块中,我们使用这两个函数来获取指定URL的页面内容,并打印出提取的数据。这个例子展示了如何使用Python爬取某个网页上的数据,并且是以面向对象的方式来进行的。
评论已关闭