使用R语言和htmltab库的爬虫程序
warning:
这篇文章距离上次修改已过202天,其中的内容可能已经有所变动。
library(htmltab)
# 定义一个函数来获取指定城市的天气信息
get_weather_info <- function(city) {
# 构造目标网页的URL
url <- sprintf("https://www.aqistudy.cn/historydata/daydata.php?city=%s", city)
# 使用htmltab从网页中提取表格数据
tryCatch({
weather_table <- htmltab(url, trim = TRUE)
# 处理表格数据,根据需要进行更多的数据清洗和转换
if (nrow(weather_table) > 0) {
# 将日期字符串转换为日期对象
weather_table$日期 <- as.Date(weather_table$日期, format = "%Y-%m-%d")
# 返回处理后的数据
return(weather_table)
} else {
message("没有找到数据")
}
}, error = function(e) {
message("网页解析错误: ", conditionMessage(e))
})
}
# 示例:获取"北京"的天气信息
beijing_weather <- get_weather_info("北京")
print(beijing_weather)
这段代码定义了一个函数get_weather_info
,它接受一个城市名称作为参数,构造相应的URL,使用htmltab
函数从网页中提取表格数据,并对提取的数据进行简单的处理(例如日期格式转换)。然后,它尝试提取数据,并在出现错误时捕获异常,打印相关的错误信息。最后,它提供了一个使用这个函数获取特定城市天气信息的示例。
评论已关闭