以下是一个简单的ASP.NET爬虫示例,用于从指定网址下载图片:
首先,在ASP.NET项目中添加一个名为Crawler的新类:
using System;
using System.Net;
using System.IO;
 
public class Crawler
{
    public static void DownloadImages(string url, string destinationFolder)
    {
        // 创建Web客户端实例
        using (WebClient webClient = new WebClient())
        {
            // 获取网页HTML内容
            string html = webClient.DownloadString(url);
 
            // 使用正则表达式匹配图片链接
            // 注意:这里需要根据实际网页结构调整正则表达式
            string pattern = @"<img[^<>]+src=""([^""]+)""";
 
            System.Text.RegularExpressions.MatchCollection matches = 
                System.Text.RegularExpressions.Regex.Matches(html, pattern, 
                                                              System.Text.RegularExpressions.RegexOptions.IgnoreCase);
 
            // 遍历所有匹配到的图片链接
            foreach (System.Text.RegularExpressions.Match match in matches)
            {
                if (match.Success)
                {
                    string imageUrl = match.Groups[1].Value; // 图片链接
                    try
                    {
                        // 下载图片
                        string imageFileName = Path.GetFileName(new Uri(imageUrl));
                        string localPath = Path.Combine(destinationFolder, imageFileName);
                        webClient.DownloadFile(imageUrl, localPath);
                        Console.WriteLine($"图片 {imageFileName} 已保存到 {localPath}");
                    }
                    catch (Exception ex)
                    {
                        Console.WriteLine($"下载图片时发生错误: {ex.Message}");
                    }
                }
            }
        }
    }
}然后,在ASP.NET页面的代码后台(例如Default.aspx.cs)中调用这个方法:
protected void Page_Load(object sender, EventArgs e)
{
    string baseUrl = "http://www.example.com"; // 应替换为目标网址
    string destinationFolder = Server.MapPath("~/Images"); // 服务器上的目标文件夹
 
    Crawler.DownloadImages(baseUrl, destinationFolder);
}请注意,这个示例使用了简单的正则表达式来匹配网页中的图片链接,这可能不适用于所有网站的图片结构。实际使用时,你需要根据目标网站的HTML结构调整正则表达式。
此外,这个示例没有考虑并发下载、异常处理、Cookies处理、分页处理等多种情况,仅供学习参考。在实