python 爬虫获取TED talk文稿

作者：System 时间：2024年08月16日分类：所有,爬虫字数：859

这篇文章距离上次修改已过687天，其中的内容可能已经有所变动。

要使用Python爬取TED talk文稿，你可以使用requests库获取网页内容，然后使用BeautifulSoup解析网页。以下是一个简单的例子：




import requests
from bs4 import BeautifulSoup
 
# TED talk页面的URL
url = 'https://www.ted.com/talks/steven_pinker_on_language_and_the_human_mind'
 
# 发送HTTP请求
response = requests.get(url)
 
# 确保请求成功
if response.status_code == 200:
    # 解析网页
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 寻找包含演讲文稿的div
    # 注意：这里的选择器可能需要根据TED网站的实际HTML结构进行调整
    talk_div = soup.find('div', class_='talk_transcript_source')
    
    # 提取文稿内容
    if talk_div:
        transcript = talk_div.get_text()
        print(transcript)
    else:
        print("No transcript found.")
else:
    print("Failed to retrieve the webpage.")

请注意，TED网站可能会更改其HTML结构，这可能会导致解析代码需要相应更新。此外，TED有一些反爬策略，如需要登录或者需要同意隐私政策才能访问内容，这可能会增加爬取的复杂性。此代码只是一个基础示例，实际使用时可能需要处理更多的情况。

python 爬虫获取TED talk文稿

评论已关闭

推荐阅读