Python 爬虫:获取 JS 动态内容——应用宝搜索应用!,互联网公司招聘面试的形式
import requests
from pyquery import PyQuery as pq
def get_app_info(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',
'Referer': 'https://www.baidu.com/'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
doc = pq(response.text)
name = doc('.app-name').text()
desc = doc('.app-desc').text()
download_url = doc('.download-btn').attr('href')
return {
'name': name,
'description': desc,
'download_url': download_url
}
return None
# 应用宝应用链接
app_url = 'https://app.baidu.com/app/16279872/1125883.html'
info = get_app_info(app_url)
if info:
print(info)
else:
print('Failed to retrieve app info.')
这段代码使用了requests库来发送HTTP请求,并使用pyquery库来解析HTML。代码定义了一个get_app_info
函数,它接受一个应用宝应用链接作为参数,发送请求,解析页面,提取应用名称、描述和下载链接,并以字典形式返回。如果页面解析成功,则返回包含应用信息的字典;如果解析失败,则返回None。最后,代码演示了如何调用get_app_info
函数并处理返回的数据。
评论已关闭