python 爬虫获取TED talk文稿
要使用Python爬取TED talk文稿,你可以使用requests
库获取网页内容,然后使用BeautifulSoup
解析网页。以下是一个简单的例子:
import requests
from bs4 import BeautifulSoup
# TED talk页面的URL
url = 'https://www.ted.com/talks/steven_pinker_on_language_and_the_human_mind'
# 发送HTTP请求
response = requests.get(url)
# 确保请求成功
if response.status_code == 200:
# 解析网页
soup = BeautifulSoup(response.text, 'html.parser')
# 寻找包含演讲文稿的div
# 注意:这里的选择器可能需要根据TED网站的实际HTML结构进行调整
talk_div = soup.find('div', class_='talk_transcript_source')
# 提取文稿内容
if talk_div:
transcript = talk_div.get_text()
print(transcript)
else:
print("No transcript found.")
else:
print("Failed to retrieve the webpage.")
请注意,TED网站可能会更改其HTML结构,这可能会导致解析代码需要相应更新。此外,TED有一些反爬策略,如需要登录或者需要同意隐私政策才能访问内容,这可能会增加爬取的复杂性。此代码只是一个基础示例,实际使用时可能需要处理更多的情况。
评论已关闭