用R语言实现网页影评的爬虫介绍
library(rvest)
library(dplyr)
library(stringr)
# 定义一个函数来爬取单个影评页面的评论
scrape_page <- function(url) {
# 使用read_html从URL读取内容
page <- read_html(url)
# 提取评论内容
comments <- page %>%
html_nodes(".comment-content") %>%
html_text() %>%
str_trim()
# 返回评论向量
return(comments)
}
# 测试函数
url <- "http://example.com/reviews/page1"
comments <- scrape_page(url)
print(comments)
这个简单的例子展示了如何使用rvest
包中的函数来爬取一个假设的影评网站上单个页面的影评。函数scrape_page
接受一个URL作为输入,读取页面内容,并提取所有类名为comment-content
的元素的文本。然后,使用str_trim
函数去除文本前后的空格和换行符,并返回结果。这个例子教会了如何设计一个简单的爬虫函数,并展示了如何使用dplyr
和stringr
包来处理数据。
评论已关闭