分类后端技术下的文章

2024-08-23

以下是一个简化的西瓜网视频数据爬虫示例，使用Python的requests和BeautifulSoup库。请注意，实际爬取数据时需遵守西瓜网的robots.txt协议及法律法规，此代码仅用于学习目的。




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
def get_xibo_videos(url):
    # 发送HTTP请求
    response = requests.get(url)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'lxml')
 
    # 解析视频数据
    videos = soup.find_all('div', class_='video-item')
    data = []
    for video in videos:
        title = video.find('a', class_='video-title').text
        play_url = video.find('a', class_='video-play')['href']
        data.append({
            'title': title,
            'play_url': play_url
        })
    return data
 
def save_to_csv(data, filename):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False)
 
# 示例URL
base_url = 'https://www.xibo.org/videos/new-videos'
videos_data = get_xibo_videos(base_url)
save_to_csv(videos_data, 'xibo_videos.csv')

这段代码定义了两个函数：get_xibo_videos 用于获取西瓜网指定页面的视频数据，save_to_csv 用于将数据保存到CSV文件。首先通过requests库发送HTTP请求，然后使用BeautifulSoup解析页面数据，并提取视频标题和播放URL。最后，将数据保存到CSV文件中。

- 阅读更多 -

爬虫：如何获得vn30指数构成公司的symbol

System

2024-08-23

所有,爬虫

要获取vn30指数成分股的symbol，你可以使用Python的requests库来发送HTTP请求，获取数据，然后解析返回的JSON数据。以下是一个简单的例子，展示了如何获取数据：




import requests
 
# 设置vn30指数的URL
url = 'http://api.money.126.net/data/feed/000300SH'
 
# 发送HTTP请求
response = requests.get(url)
 
# 检查请求是否成功
if response.status_code == 200:
    # 解析JSON数据
    data = response.json()
    # 获取成分股列表
    stock_list = data['secid']
 
    # 打印每只成分股的symbol
    for stock in stock_list:
        print(stock)
else:
    print("请求失败，状态码：", response.status_code)

请注意，你可能需要处理请求的速率限制，以免被API服务器阻止。此外，API的URL和返回的数据结构可能会随着服务提供商的更新而变化，因此你可能需要参考最新的API文档。

- 阅读更多 -

Java开发网络爬虫：教你如何自动化抓取网页数据

System

2024-08-23

所有,爬虫




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
 
public class WebCrawlerExample {
    public static void main(String[] args) {
        // 目标网页URL
        String url = "http://example.com";
 
        // 使用Jsoup连接网页
        try {
            Document doc = Jsoup.connect(url).get();
 
            // 打印网页的标题
            String title = doc.title();
            System.out.println("网页标题: " + title);
 
            // 打印网页的内容
            String content = doc.body().text();
            System.out.println("网页内容: \n" + content);
 
            // 查找所有的链接并打印
            for (String link : doc.select("a[href]").eachAttr("href")) {
                System.out.println("链接: " + link);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这段代码使用了Jsoup库来抓取指定网页的数据。首先，它连接到了一个网页，然后获取了网页的标题和内容，并打印出来。此外，它还遍历了所有的超链接，并打印出链接地址。这个例子展示了如何使用Java进行基本的网络爬虫操作。

System

2024-08-23

所有,爬虫

以下是一个基于您提出的需求的Nginx配置示例，包括GeoIP2自动更新、防盗链、防爬虫、限制访问速度和限制连接数。

首先，确保你已经安装了Nginx和必要的开发工具。




# 安装Nginx
sudo apt-install nginx
 
# 安装开发工具
sudo apt-get install build-essential libpcre3 libpcre3-dev zlib1g zlib1g-dev libssl-dev

接下来，安装GeoIP2和Nginx的GeoIP2模块：




# 安装GeoIP2库
sudo apt-get install geoip2 libgeoip-dev
 
# 安装Nginx GeoIP2模块
cd /usr/src
sudo git clone https://github.com/leev/ngx_http_geoip2_module.git
cd ngx_http_geoip2_module
sudo ./auto/configure
sudo make
sudo make install

配置Nginx：




# /etc/nginx/nginx.conf
 
events {}
 
http {
    geoip2 /usr/share/GeoIP/GeoLite2-City.mmdb {
        auto_reload 5m;
        $geoip2_metadata_country_build metadata start 2 end 2;
        $geoip2_metadata_city_build metadata start 3 end 3;
    }
 
    server {
        listen 80;
        server_name your_domain.com;
 
        # 防盗链
        valid_referers none blocked server_names *.your_domain.com;
        if ($invalid_referer) {
            return 403;
        }
 
        # 防爬虫
        if ($http_user_agent ~* (Googlebot|Bing|Yahoo|Crawl|Flickr|Twitter)) {
            return 403;
        }
 
        # 限制访问速度
        limit_rate_after 1m;
        limit_rate 50k;
 
        # 限制连接数
        limit_conn_zone $binary_remote_addr zone=perip:10m;
        limit_conn_status 429;
        limit_conn_track_key $binary_remote_addr;
        limit_conn_zone $server_name zone=perserver:10m;
 
        location / {
            # 根据不同的国家设置不同的访问速度
            set $limit_rate 50k;
            if ($geoip2_data_country_code = "CN") {
                set $limit_rate 100k;
            }
            limit_rate $limit_rate;
 
            # 根据不同的国家设置不同的最大连接数
            set $limit_conn "32";
            if ($geoip2_data_country_code = "CN") {
                set $limit_conn "64";
            }
            limit_conn $limit_conn perip;
            limit_conn $limit_conn perserver;
 
            root /var/www/html;
            index index.html index.htm;
        }
    }
}

确保你已经下载了GeoLite2的数据库文件，并放置在正确的目录下。你可以从MaxMind官网获取这个数据库文件。




# 下载GeoLite2数据库
cd /usr/share/GeoIP/
sudo wget https://geolite.maxmind.com/download/geoip/database/GeoLite2-City.mmdb.gz
sudo gunzip GeoLite2-City.mmdb.gz
sudo chmod 644 GeoLite2-City.mmdb

最后，重启Nginx以应用新的配置：




sudo systemctl restart nginx

这个配置示例提供了一个基本框架，你可以根据自己的需求进行调整和增强

- 阅读更多 -

【python爬虫】爬虫编程技术的解密与实战

System

2024-08-23

所有,爬虫




import requests
from bs4 import BeautifulSoup
 
# 设置代理服务器
proxies = {
    'http': 'http://user:password@proxy.server.com:port',
    'https': 'https://user:password@proxy.server.com:port'
}
 
# 发送请求
def send_request(url):
    try:
        response = requests.get(url, proxies=proxies)
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败，状态码: {response.status_code}")
    except requests.exceptions.RequestException as e:
        print(f"请求出错: {e}")
 
# 解析页面
def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 解析页面内容，提取需要的数据
    # ...
    return data
 
# 主函数
def main():
    url = "http://example.com"
    html = send_request(url)
    if html:
        data = parse_page(html)
        # 处理数据
        # ...
 
if __name__ == "__main__":
    main()

这个简单的爬虫示例展示了如何使用Python的requests库发送带有代理的网络请求，以及如何使用BeautifulSoup解析HTML页面。在实际应用中，你需要根据目标网站的具体结构来编写解析页面的代码，并处理获取到的数据。

- 阅读更多 -

001基于Python网站爬虫的设计与实现

System

2024-08-23

所有,爬虫




import requests
from bs4 import BeautifulSoup
 
# 发送HTTP请求获取网页内容
def get_html(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except requests.RequestException:
        return None
 
# 解析网页并提取所需数据
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 假设我们要提取所有的段落文本
    paragraphs = soup.find_all('p')
    return [p.get_text() for p in paragraphs]
 
# 主函数，组装URL并调用函数获取和解析数据
def main():
    url = 'http://example.com'  # 替换为你要爬取的网站
    html = get_html(url)
    if html:
        paragraphs = parse_html(html)
        for p in paragraphs:
            print(p)
    else:
        print("Failed to retrieve the webpage content.")
 
if __name__ == '__main__':
    main()

这个简单的Python爬虫示例展示了如何使用requests库获取网页内容，并使用BeautifulSoup进行解析。这个例子假设我们要提取段落文本，并打印输出。在实际应用中，你需要根据目标网站的结构和你需要抓取的数据进行相应的调整。

- 阅读更多 -

网络爬虫：爬取静态网页与动态网页

System

2024-08-23

所有,爬虫

在爬取网页数据时，可以使用Python的requests库来获取静态网页和动态网页的数据。对于动态网页，可以使用Selenium、Selenium Wire等工具来模拟浏览器行为获取动态加载的数据。

以下是一个简单的示例，使用requests和Selenium来分别爬取静态和动态网页的数据。

静态网页（例如：httpbin.org/get）:




import requests
 
url = 'http://httpbin.org/get'
response = requests.get(url)
print(response.text)

动态网页（例如：使用JavaScript加载内容的网页）:




from selenium import webdriver
from selenium.webdriver.common.by import By
 
# 启动浏览器
driver = webdriver.Chrome()
 
# 打开网页
url = 'http://example.com'  # 动态网页的URL
driver.get(url)
 
# 获取网页源代码
page_source = driver.page_source
print(page_source)
 
# 关闭浏览器
driver.quit()

在实际应用中，可能需要设置代理、处理登录、处理Cookies、解决验证码等问题，以上代码仅提供了基本的爬取方法。

- 阅读更多 -

C++爬虫模板3.1(winhttp)

System

2024-08-23

所有,爬虫

由于原始代码已经是一个很好的示例，下面提供的代码是一个简化版本，去除了原始代码中的一些复杂性，并添加了必要的注释。




#include <iostream>
#include <string>
#include <winhttp.h>
 
#pragma comment(lib, "winhttp.lib")
 
bool GetHttpFile(const std::wstring& url, const std::wstring& filename) {
    HINTERNET hSession = ::WinHttpOpen(L"Crawler/3.1", WINHTTP_ACCESS_TYPE_DEFAULT_PROXY, WINHTTP_NO_PROXY_NAME, WINHTTP_NO_PROXY_BYPASS, 0);
    if (!hSession) {
        std::cerr << "WinHttpOpen failed: " << GetLastError() << std::endl;
        return false;
    }
 
    HINTERNET hConnect = ::WinHttpConnect(hSession, L"www.example.com", INTERNET_DEFAULT_HTTP_PORT, 0);
    if (!hConnect) {
        std::cerr << "WinHttpConnect failed: " << GetLastError() << std::endl;
        ::WinHttpCloseHandle(hSession);
        return false;
    }
 
    HINTERNET hRequest = ::WinHttpOpenRequest(hConnect, L"GET", url.c_str(), NULL, WINHTTP_NO_REFERER, WINHTTP_DEFAULT_ACCEPT_TYPES, 0);
    if (!hRequest) {
        std::cerr << "WinHttpOpenRequest failed: " << GetLastError() << std::endl;
        ::WinHttpCloseHandle(hConnect);
        ::WinHttpCloseHandle(hSession);
        return false;
    }
 
    if (!::WinHttpSendRequest(hRequest, WINHTTP_NO_ADDITIONAL_HEADERS, 0, WINHTTP_NO_REQUEST_DATA, 0, 0, 0)) {
        std::cerr << "WinHttpSendRequest failed: " << GetLastError() << std::endl;
        ::WinHttpCloseHandle(hRequest);
        ::WinHttpCloseHandle(hConnect);
        ::WinHttpCloseHandle(hSession);
        return false;
    }
 
    if (!::WinHttpReceiveResponse(hRequest, NULL)) {
        std::cerr << "WinHttpReceiveResponse failed: " << GetLastError() << std::endl;
        ::WinHttpCloseHandle(hRequest);
        ::WinHttpCloseHandle(hConnect);
        ::WinHttpCloseHandle(hSession);
        return false;
    }
 
    DWORD dwSize = 0;
    DWORD dwDownloaded = 0;
    std::ofstream outfile(filename, std::ios::out | std::ios::binary);
    if (outfile) {
        do {
            char buffer[4096];
            if (!::WinHttpQueryDataAvailable(hRequest, &dwSize)) {
                std::cerr << "WinHttpQueryDataAvailable failed: " << GetLastError() << std::endl;
                ::WinHttpCloseHandle(hRequest);
                ::WinHttpCloseHandle(hConnect);
                ::WinHttpCloseHandle(hSession);
                return false;
            }
 
            if (!dwSize) {
                break;
            }
 
            if (!::WinHttpReadDa

System

2024-08-23

所有,爬虫

在爬虫中，常见的伪加密方式有Base64和MD5。Base64是一种简单的加密方式，可以用来加密数据，但是它很容易被解密。MD5是一种散列函数，主要用于生成消息摘要，它是不可逆的，主要用于验证数据的完整性。

以下是Python中这些加密方式的实现：

Base64加密：

Python的内置库base64提供了Base64的编码和解码功能。




import base64
 
# 编码
encoded_data = base64.b64encode(b"Hello World")
print(encoded_data)  # 输出：b'SGVsbG8gV29ybGQ='
 
# 解码
decoded_data = base64.b64decode(b'SGVsbG8gV29ybGQ=')
print(decoded_data)  # 输出：b'Hello World'

MD5加密：

Python的hashlib库提供了MD5加密功能。




import hashlib
 
# 加密
md5_data = hashlib.md5(b"Hello World").hexdigest()
print(md5_data)  # 输出：'b10a8db164e0754105b7a99be72e3fe5'

需要注意的是，MD5加密后的结果是一个128位的散列值，不可逆。

DES加密：




from Crypto.Cipher import DES
from binascii import b2a_hex, a2b_hex
 
key = b'ABCDEFGHIJKLMNOP'
 
def des_encrypt(data):
    data = data.encode('utf-8')
    mod = DES.new(key, DES.MODE_ECB)
    return b2a_hex(mod.encrypt(data))
 
def des_decrypt(data):
    mod = DES.new(key, DES.MODE_ECB)
    return mod.decrypt(a2b_hex(data)).decode('utf-8')
 
encrypted_data = des_encrypt(b"Hello World")
print(encrypted_data)  # 输出加密数据
 
decrypted_data = des_decrypt(encrypted_data)
print(decrypted_data)  # 输出解密数据

AES加密：




from Crypto.Cipher import AES
from binascii import b2a_hex, a2b_hex
from Crypto.Random import get_random_bytes
 
key = get_random_bytes(16)
 
def aes_encrypt(data):
    data = data.encode('utf-8')
    aes = AES.new(key, AES.MODE_EAX)
    ciphertext, tag = aes.encrypt_and_digest(data)
    return b2a_hex(aes.nonce), b2a_hex(tag), b2a_hex(ciphertext)
 
def aes_decrypt(nonce, tag, ciphertext):
    aes = AES.new(key, AES.MODE_EAX, nonce=nonce)
    return aes.decrypt_and_verify(a2b_hex(ciphertext), a2b_hex(tag)).decode('utf-8')
 
encrypted_data = aes_encrypt(b"Hello World")
print(encrypted_data)  # 输出加密数据
 
decrypted_data = aes_decrypt(*encrypted_data)
print(decrypted_data)  # 输出解密数据

RSA加密：




from Crypto.PublicKey import RSA
from Crypto.Cipher import PKCS1_v1_5
from binascii import b2a_hex, a2b_hex
 
rsa = RSA.

- 阅读更多 -

python+selenium爬虫笔记

System

2024-08-23

所有,爬虫




# 导入必要的模块
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
 
# 初始化webdriver
driver = webdriver.Chrome()
 
# 打开网页
driver.get("http://www.baidu.com")
 
# 找到搜索框，输入文本，并提交
input = driver.find_element_by_id("kw")
input.send_keys("Python")
input.send_keys(Keys.ENTER)
 
# 等待页面加载完成
time.sleep(5)
 
# 获取当前页面的源代码并打印
html = driver.page_source
print(html)
 
# 清理工作：关闭浏览器
driver.close()

这段代码使用了Selenium WebDriver 来操作Chrome浏览器打开了百度首页，在搜索框中输入了"Python"并提交了搜索，然后打印了当前页面的源代码。最后，代码关闭了浏览器以清理工作。这是一个基本的Selenium爬虫示例。

- 阅读更多 -