分类爬虫下的文章

【Delphi 爬虫库 2】使用封装好的 JSON 解析库对 JSON 数据进行解析

2024-08-16




uses
  System.JSON;
 
procedure ParseJSONExample;
var
  JSONData: TJSONValue;
  JSONObject: TJSONObject;
  JSONArray: TJSONArray;
  Item: TJSONValue;
  NameValue: TJSONValue;
begin
  // 假设有一段 JSON 字符串
  const JSONString = '{"employees":[' +
                      '{"firstName":"John","lastName":"Doe" },' +
                      '{"firstName":"Anna","lastName":"Smith" },' +
                      '{"firstName":"Peter","lastName":"Jones" }]}'
  ;
 
  // 解析 JSON 字符串
  JSONData := TJSONObject.ParseJSONValue(JSONString);
  try
    // 确保 JSON 数据被正确解析
    if JSONData <> nil then
    begin
      // 获取 "employees" 数组
      JSONArray := JSONData.GetValue<TJSONArray>('employees');
      // 遍历数组
      for Item in JSONArray do
      begin
        // 将每个数组元素转换为 JSON 对象
        JSONObject := Item as TJSONObject;
        // 获取对象中的 "firstName" 和 "lastName" 值
        NameValue := JSONObject.GetValue('firstName');
        Writeln('FirstName: ', NameValue.Value);
        NameValue := JSONObject.GetValue('lastName');
        Writeln('LastName: ', NameValue.Value);
      end;
    end
    else
      Writeln('JSON is not valid');
  finally
    // 释放 JSON 数据对象
    JSONData.Free;
  end;
end;

这段代码展示了如何使用 Delphi 中封装好的 JSON 解析库来解析一个简单的 JSON 字符串。首先，使用 TJSONObject.ParseJSONValue 方法解析 JSON 字符串，然后检查解析结果是否为 nil，并对解析到的数据进行处理。最后，确保释放所有使用的资源。

- 阅读更多 -

使用proxy_pool来为爬虫程序自动更换代理IP | 开源IP代理

System

2024-08-16

所有,爬虫




import requests
from proxy_pool import ProxyPool
 
# 初始化代理池
proxy_pool = ProxyPool(
    db_host='localhost',
    db_port=27017,
    db='proxypool',
    db_username='',
    db_password='',
)
 
# 获取代理
def get_proxy():
    return proxy_pool.get_random_proxy()
 
# 使用代理发送请求
def send_request(url, method='GET', **kwargs):
    proxy = get_proxy()
    proxies = {'http': 'http://' + proxy, 'https': 'https://' + proxy}
    response = requests.request(method, url, proxies=proxies, **kwargs)
    return response
 
# 示例：使用代理发送请求获取Google首页的内容
url = 'http://google.com'
response = send_request(url)
print(response.text)

这段代码展示了如何使用proxy_pool库来获取代理，并将其应用到requests库的请求中。首先初始化了代理池，然后定义了一个获取随机代理的函数get_proxy。send_request函数接受一个URL和请求方法，使用获取到的代理发送请求，并返回响应。最后，我们用一个示例来获取Google首页的内容。这个例子简单明了地展示了如何在爬虫程序中使用代理，提高数据抓取的效率和安全性。

- 阅读更多 -

利用Scrapy爬虫分析小说网站的数据

System

2024-08-16

所有,爬虫

由于原始代码中的parse_chapter函数没有提供具体实现，以下是一个简化的示例，展示了如何使用Scrapy爬取一个小说网站的章节标题和内容。




import scrapy
 
class NovelSpider(scrapy.Spider):
    name = 'novel_spider'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com/novel/']
 
    def parse(self, response):
        # 提取小说章节链接
        chapter_links = response.css('.chapter a::attr(href)').getall()
        for link in chapter_links:
            absolute_url = response.urljoin(link)
            yield scrapy.Request(absolute_url, callback=self.parse_chapter)
 
    def parse_chapter(self, response):
        # 提取章节标题和内容
        title = response.css('.chapter-title::text').get()
        content = response.css('.chapter-content::text').getall()
        content = ''.join(content)  # 将多行内容拼接为一个字符串
 
        # 输出或保存结果
        yield {
            'title': title,
            'content': content,
        }

这个示例中，parse函数提取了章节链接并为每个链接生成了请求，这些请求会被parse_chapter函数处理。parse_chapter函数提取了章节标题和内容，并将它们组合成一个字典，这个字典可以作为一个item被Scrapy item pipeline处理，例如保存到文件或数据库中。

请注意，实际应用中可能需要处理更多的细节，例如处理分页、处理图片嵌入的小说文本、处理JavaScript渲染的内容等。这个示例提供了一个基本框架，可以根据具体网站的结构进行调整和扩展。

- 阅读更多 -

Scala网络爬虫实战：抓取QQ音乐的音频资源

System

2024-08-16

所有,爬虫




import org.jsoup.Jsoup
import scala.collection.mutable.ListBuffer
import scala.sys.process._
import java.net.URL
 
object QQMusicSpider extends App {
  // 音乐列表页URL
  val listUrl = "https://y.qq.com/portal/search_list.html#page=1&searchid=1&remoteplace=txt.yqq.top&t=song&w=%E5%85%A8%E9%83%A8"
  // 使用Jsoup解析页面
  val doc = Jsoup.connect(listUrl).get()
  // 查找包含音乐信息的iframe
  val iframeUrl = doc.select("iframe").attr("src")
  // 解析音乐信息页面
  val iframeDoc = Jsoup.connect(iframeUrl).get()
  // 查找所有的音乐信息
  val musics = iframeDoc.select(".song_name").select("a")
  val musicList = new ListBuffer[String]()
 
  musics.foreach { music =>
    val musicUrl = "https://y.qq.com" + music.attr("href")
    val musicId = musicUrl.split("=")(1)
    val songMidUrl = s"https://i.y.qq.com/v8/playsong443/fcgi-bin/fcg_play_single_song.fcg?songmid=$musicId&g_tk=5381"
    val songMidJson = Jsoup.connect(songMidUrl).ignoreContentType(true).execute().body().trim.substring(9)
    val songMidMap = songMidJson.split("&").map { pair =>
      val keyAndValue = pair.split("=")
      (keyAndValue(0), keyAndValue(1))
    }.toMap
    val songName = music.text()
    val songUrl = s"https://dl.stream.qqmusic.qq.com/${songMidMap("filename")}.m4a?vkey=${songMidMap("vl")}&guid=7840245912&uin=0&fromtag=66"
    // 添加音乐链接到列表
    musicList += songUrl
    println(s"找到音乐：$songName, 正在下载...")
    // 下载音乐
    new URL(songUrl) #> s"$songName.m4a" !!
  }
  println("所有音乐下载完毕！")
}

这段代码使用了Jsoup来解析HTML页面，并找到了包含音乐信息的iframe。然后它解析了iframe中的内容，提取出每一首歌的名字和对应的音乐ID。接着，它请求QQ音乐服务器，获取了用于音乐播放的其他信息，最终构建出每首歌的音乐文件的URL。最后，它遍历所有的音乐链接，下载每一首歌。这个过程展示了如何使用Scala进行网络爬虫，并处理简单的动态内容。

System

2024-08-16

所有,爬虫

报错解释：

这个报错信息是由Python的requests库产生的，表示尝试建立到指定主机（117.89.172.166）和端口（31265）的HTTP连接时超过了最大重试次数。这通常意味着在指定的时间内无法建立连接。

解决方法：

检查网络连接：确保目标服务器可以访问，并且没有网络阻断。
检查服务器状态：确认目标服务器正在运行，并且端口31265上的服务已启动。
检查防火墙设置：确保没有防火墙规则阻止访问该端口。
增加重试次数：在requests调用中增加requests.adapters.DEFAULT_RETRIES的值，或者使用requests.Session()对象，它默认增加了重试次数。
调整超时时间：增加timeout参数的值，以允许更长时间进行连接尝试。

示例代码：




import requests
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry
 
session = requests.Session()
retries = Retry(total=5, backoff_factor=0.5, status_forcelist=[500, 502, 503, 504])
session.mount('http://117.89.172.166:31265', HTTPAdapter(max_retries=retries))
 
response = session.get('http://117.89.172.166:31265')

以上代码增加了重试次数，并对特定状态码列表的响应执行重试。根据具体情况选择适当的解决方法。

System

2024-08-16

所有,爬虫

Scrapy是一个用于创建Web爬虫的开源和跨平台的Python框架。它的设计目的是提取结构化数据，即Web页面上的数据。

Scrapy的主要组件包括：

引擎(Engine)：用来处理整个系统的数据流处理，负责数据在不同组件之间的流动。
调度器(Scheduler)：用来接收引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址）的优先队列, 由它来决定下一个要抓取的网址是什么.
下载器(Downloader)：用于下载网页内容，并将网页内容返回给爬虫。
爬虫(Spiders)：爬虫是主要做事情的组件，用于解析Downloader返回的响应（Response），从中提取Item（即提取的数据）和新的请求。
项目管道(Item Pipeline)：负责处理爬取的数据，如清理数据、验证数据、持久化数据（例如存储到数据库）。
下载器中间件(Downloader Middlewares)：对Scrapy的请求和响应进行处理。
爬虫中间件(Spider Middlewares)：对爬虫的响应和请求进行处理。

Response对象包含了一个网页的内容及其相关信息，常用的属性和方法有：

url：获取该response的请求的URL。
status：获取HTTP状态码。
headers：获取响应头。
body：获取响应体（字节字符串）。
text：获取响应体（Unicode字符串）。
encoding：获取编码方式。
request：获取这个响应对应的请求。

例如，以下代码展示了如何在Scrapy爬虫中使用这些属性和方法：




import scrapy
 
class MySpider(scrapy.Spider):
    name = 'example.com'
    start_urls = ['http://www.example.com']
 
    def parse(self, response):
        # 提取响应的URL
        print('Response URL:', response.url)
 
        # 获取HTTP状态码
        print('Status:', response.status)
 
        # 获取响应头
        print('Headers:', response.headers)
 
        # 获取响应体（字节字符串）
        print('Body:', response.body)
 
        # 获取响应体（Unicode字符串）
        print('Text:', response.text)
 
        # 获取编码方式
        print('Encoding:', response.encoding)
 
        # 获取这个响应对应的请求
        print('Request:', response.request)

以上代码是一个Scrapy爬虫的简单例子，它会打印出给定网页的URL、状态码、头部、正文、文本内容、编码方式和请求信息。这些属性和方法对于理解和分析爬虫所获取的数据是非常有用的。

- 阅读更多 -

爬虫抓取电影资源批量更新到Discuz3.5，并给图片添加水印

System

2024-08-16

所有,爬虫

这个问题涉及到的技术栈较为复杂，涉及到的主要技术有Python爬虫技术、图像处理技术、数据库操作技术等。以下是一个概念性的解决方案：

使用Python爬取电影资源信息，并保存至数据库。
使用Python的图像处理库（如Pillow）为图片添加水印。
使用数据库操作库（如pymysql）将处理过的图片和电影信息批量更新到Discuz3.5的数据库中。

以下是一个简单的示例代码：




import requests
from PIL import Image, ImageDraw, ImageFont
import pymysql
 
# 1. 爬取电影资源信息
def crawl_movie_resources():
    # 这里应该是爬虫获取资源的代码
    pass
 
# 2. 为图片添加水印
def add_watermark(image_path, watermark_text):
    image = Image.open(image_path)
    draw = ImageDraw.Draw(image)
    font = ImageFont.truetype("arial.ttf", 30)
    draw.text((10, 10), watermark_text, font=font, fill=(255, 0, 0, 128))
    image.save(image_path)
 
# 3. 批量更新到Discuz3.5数据库
def update_to_discuz_db(movie_info, images_with_watermarks):
    # 连接数据库
    connection = pymysql.connect(host='your_host', user='your_user', password='your_password', db='your_db')
    cursor = connection.cursor()
 
    # 更新数据库
    for movie, image in zip(movie_info, images_with_watermarks):
        cursor.execute("UPDATE movie_table SET image=%s WHERE id=%s", (image, movie['id']))
 
    # 提交更改并关闭连接
    connection.commit()
    connection.close()
 
# 假设这是爬取到的电影资源信息
movie_info = [{'id': 1, 'name': '电影1', 'image_url': 'http://example.com/image1.jpg'}, ...]
 
# 假设这是存放图片的路径
images_paths = ['/path/to/image1.jpg', '/path/to/image2.jpg', ...]
 
# 为每一张图片添加水印
for image_path in images_paths:
    add_watermark(image_path, "WATERMARK")
 
# 更新数据库
update_to_discuz_db(movie_info, images_paths)

请注意，这个示例代码仅为概念性示范，实际应用时需要根据具体的数据库结构、API接口、图片存储路径等进行相应的调整。此外，对于爬虫技术和数据库操作技术，还需要确保遵守相关的法律法规，不违反知识产权和隐私权相关的条款。

- 阅读更多 -

Crawler爬取旅行轨迹数据 - 以两步路官网为例

System

2024-08-16

所有,爬虫

以下是一个简化的代码示例，展示了如何使用Python爬取两步路（Leaderway）旅行轨迹数据的基本方法。请注意，实际应用中可能需要处理更多的反爬策略和数据解析细节。




import requests
import json
 
# 设置请求头，模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
# 两步路旅行轨迹数据API URL
url = 'https://www.liulang.com/api/v1/tracks/20230322001?access_token=YOUR_ACCESS_TOKEN'
 
# 发送GET请求
response = requests.get(url, headers=headers)
 
# 确认请求成功
if response.status_code == 200:
    # 解析JSON数据
    data = json.loads(response.text)
    print(data)
else:
    print("请求失败")
 
# 注意：
# 1. 替换'YOUR_ACCESS_TOKEN'为你的实际访问令牌
# 2. 该代码未包含错误处理和完整的数据解析，仅展示了请求发送和基本的数据处理流程

在实际应用中，你需要替换YOUR_ACCESS_TOKEN为你从两步路获取的有效访问令牌，并且可能需要添加更多的异常处理和数据解析逻辑以确保代码的稳定性和安全性。

- 阅读更多 -

【数据采集】实验02-爬虫原理与简单爬虫编写

System

2024-08-16

所有,爬虫




import requests
from bs4 import BeautifulSoup
 
# 定义一个简单的爬虫函数
def simple_crawler(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        return "Error: 网页无法访问"
 
# 使用BeautifulSoup解析网页
def parse_soup(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 假设我们要获取所有的段落<p>
    paragraphs = soup.find_all('p')
    for p in paragraphs:
        print(p.text)
 
# 主函数，用于测试
def main():
    url = 'http://example.com'  # 替换为你要爬取的网页
    html = simple_crawler(url)
    parse_soup(html)
 
if __name__ == '__main__':
    main()

这段代码展示了如何使用Python的requests库来发送HTTP请求，以及如何使用BeautifulSoup库来解析HTML并提取所需的数据。这是一个非常基础的爬虫示例，仅适用于简单的网页。在实际应用中，你可能需要处理更复杂的情况，如JavaScript渲染的内容、登录保护的网站、以及频率限制等问题，这就需要使用更高级的技术和策略来应对。

- 阅读更多 -

【教你写爬虫】用Java爬虫爬取百度搜索结果！可爬10w+条！

System

2024-08-16

所有,爬虫

这个需求涉及到法律和道德的问题，因为爬取百度搜索结果属于未授权的数据抓取，可能会侵犯百度的使用协议，也可能侵犯其他网站的版权。此外，对于大规模的数据抓取，很多网站都有防爬机制，可能会需要处理登录、验证码等问题。

如果你想学习如何编写Java爬虫，以下是一个简单的例子，展示如何使用Jsoup库来抓取一个静态网页的内容。




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
 
public class SimpleCrawler {
    public static void main(String[] args) {
        try {
            // 目标URL
            String url = "https://www.baidu.com";
            // 使用Jsoup连接到网页
            Document doc = Jsoup.connect(url).get();
            // 打印网页的HTML
            System.out.println(doc.html());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

请注意，这段代码不会处理爬取百度搜索结果的复杂情况，因为这需要处理动态内容和验证码等问题，而且可能违反相关网站的服务条款。

如果你想要实现一个更复杂的爬虫，比如能够处理验证码和动态内容，你可能需要使用如Selenium等工具来驱动浏览器，并结合Jsoup来解析页面数据。但是，这种情况下的代码实现会更复杂，并且需要考虑更多的技术细节。

- 阅读更多 -