【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论
以下是一个简单的示例,使用Python的requests和lxml库来爬取B站视频的评论。
import requests
from lxml import etree
def get_comments(bvid):
# B站评论API
api_url = f'https://api.bilibili.com/x/v2/reply?type=1&oid={bvid}&pn=1&sort=0'
headers = {
'User-Agent': 'your_user_agent'
}
# 发送请求
response = requests.get(api_url, headers=headers)
comments_data = response.json()
# 提取评论内容
comments = [comment['content']['message'] for comment in comments_data['data']['replies']]
return comments
# 使用示例
bvid = 'BV12J411p7KT' # 示例BV号
comments = get_comments(bvid)
for comment in comments:
print(comment)
请注意,你需要替换'your\_user\_agent'为你自己的User-Agent,以避免被B站API封禁。此外,B站有反爬机制,如果频繁请求可能会被封禁IP。
由于B站的评论可能需要登录或者验证等安全措施,你可能需要添加额外的请求头信息,如cookie、Referer、csrf等,以通过B站的验证。
此代码只是一个简单的示例,实际应用中可能需要处理分页、登录验证、异常处理等复杂情况。
评论已关闭