go HTML 标签提取器 soup
以下是一个使用Go语言和goquery
包来提取HTML中的标签的示例代码。
首先,你需要安装goquery
包:
go get github.com/PuerkitoBio/goquery
然后,你可以使用以下代码来提取HTML文档中的标签:
package main
import (
"fmt"
"log"
"net/http"
"github.com/PuerkitoBio/goquery"
)
func main() {
// 示例HTML URL
res, err := http.Get("http://example.com")
if err != nil {
log.Fatal(err)
}
defer res.Body.Close()
if res.StatusCode != 200 {
log.Fatalf("status code error: %d %s", res.StatusCode, res.Status)
}
// 使用goquery解析HTML文档
doc, err := goquery.NewDocumentFromReader(res.Body)
if err != nil {
log.Fatal(err)
}
// 使用CSS选择器选择所有的a标签
doc.Find("a").Each(func(i int, s *goquery.Selection) {
// 对于每个a标签,提取href属性
href, exists := s.Attr("href")
if exists {
fmt.Println(href)
}
})
}
这段代码会发送一个HTTP GET请求到指定的URL,然后使用goquery
解析返回的HTML文档。它会找到所有的<a>
标签并打印出它们的href
属性。这是一个简单的HTML标签提取的例子,你可以根据需要修改选择器和提取的数据。
评论已关闭