分类后端技术下的文章

2024-08-23

在Django中，中间件是一个轻量级的插件系统，用于全局修改Django的输入或输出。它是Django的请求/响应处理过程中的一个钩子系统。

以下是一个简单的Django中间件示例，它记录每个请求的用时，并在请求结束后打印出一个简单的消息。




# middlewares.py
 
from datetime import datetime
 
class RequestTimingMiddleware:
    """
    记录每个请求的处理时间并在请求结束后打印简单消息。
    """
    def __init__(self, get_response):
        self.get_response = get_response
 
    def __call__(self, request):
        start_time = datetime.now()
        response = self.get_response(request)
        end_time = datetime.now()
        duration = (end_time - start_time).total_seconds() * 1000  # 转换为毫秒
        print(f"请求处理耗时: {duration} ms")
        return response
 
    def process_request(self, request):
        # 可以在这里编写请求到达之前的逻辑
        pass
 
    def process_response(self, request, response):
        # 可以在这里编写请求结束后的逻辑
        return response

要使用这个中间件，你需要将其添加到你的Django项目的settings.py文件中的MIDDLEWARE配置列表中。




# settings.py
 
MIDDLEWARE = [
    # ...
    'path.to.middlewares.RequestTimingMiddleware',  # 确保替换为实际的路径
    # ...
]

这个中间件类通过继承MiddlewareMixin类（Django 1.10及以后版本）或实现特定的方法（如__call__, process_request, process_response等）来定义。

在这个例子中，__call__方法是中间件被调用的主要方法，其中包含了请求处理的主要逻辑。process_request和process_response是可选的方法，用于在请求前后执行特定逻辑。

- 阅读更多 -

django校验token自定义中间件

System

2024-08-23

所有,中间件




from django.utils.deprecation import MiddlewareMixin
from django.http import JsonResponse
 
class TokenMiddleware(MiddlewareMixin):
    def process_request(self, request):
        # 获取请求头中的token
        token = request.META.get('HTTP_TOKEN', None)
        # 验证token是否正确，这里仅作为示例，实际应该与你的身份验证系统对接
        if token != 'your-custom-token':
            return JsonResponse({'error': 'Invalid token'}, status=401)
 
    def process_response(self, request, response):
        # 如果需要在响应中添加额外的处理，可以在此方法中实现
        return response

这段代码定义了一个名为TokenMiddleware的Django中间件，用于验证HTTP请求中的token是否正确。如果token不正确，则中间件会中断请求并返回一个包含错误信息的JSON响应，状态码为401。这个例子展示了如何在Django项目中实现自定义的中间件来处理请求验证。

- 阅读更多 -

k8s 中间件

System

2024-08-23

所有,中间件

Kubernetes (K8s) 是一个开源的容器编排平台，用于自动化应用容器的部署、扩缩容、维护等。在 K8s 中，常见的中间件包括服务发现和负载均衡工具 Ingress、配置管理工具 ConfigMap 和 Secret、服务网格 Istio 等。

以下是一些常见的 K8s 中间件及其简单使用示例：

Ingress: 提供HTTP和HTTPS的负载均衡，可以将K8s服务暴露给外部。




apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: example-ingress
spec:
  rules:
  - http:
      paths:
      - pathType: Prefix
        path: "/"
        backend:
          service:
            name: example-service
            port:
              number: 80

ConfigMap: 用于保存配置数据，可以被 Pod 和其他 K8s 资源使用。




apiVersion: v1
kind: ConfigMap
metadata:
  name: example-configmap
data:
  config.json: |
    {
      "key": "value"
    }

Secret: 用于保密数据，如密码、SSL证书等，通常用于 ConfigMap，但也可以在 Pod 定义中使用。




apiVersion: v1
kind: Secret
metadata:
  name: example-secret
type: Opaque
data:
  username: YWRtaW4=
  password: MWYyZDFlMmU2N2Rm=

Istio: 服务网格工具，提供流量管理、服务间通信的安全性等功能。




apiVersion: networking.istio.io/v1alpha3
kind: Gateway
metadata:
  name: example-gateway
spec:
  selector:
    istio: ingressgateway
  servers:
  - port:
      number: 80
      name: http
      protocol: HTTP
    hosts:
    - "*"

这些只是一些基本的示例，每个中间件都有其特定的配置和用途。在实际应用中，你需要根据具体需求来定义和使用这些资源。

- 阅读更多 -

Python爬虫教程27：秀啊！用Pandas 也能爬虫？？

System

2024-08-23

所有,爬虫




import requests
import pandas as pd
from bs4 import BeautifulSoup
 
# 设置请求头，伪装为浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
def get_html(url):
    response = requests.get(url, headers=headers)
    return response.text
 
def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    titles = soup.find_all('div', class_='title')
    for title in titles:
        yield {
            'title': title.a.string,
            'href': title.a['href'],
            'score': title.find_next('span', class_='rating_num').string
        }
 
def save_data(data, filename):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False, encoding='utf-8')
 
def main():
    url = 'https://movie.douban.com/top250'
    html = get_html(url)
    data = parse_html(html)
    save_data(data, 'douban_movies.csv')
 
if __name__ == '__main__':
    main()

这段代码使用了Pandas库来保存解析后的数据，而不是之前的CSV格式。这样做的好处是可以直接将数据存储为.csv文件，并且可以方便地进行后续的数据分析工作。同时，代码中的parse_html函数使用生成器，这是一种更为高效的数据处理方式。

- 阅读更多 -

python爬虫实战代码

System

2024-08-23

所有,爬虫




import requests
from bs4 import BeautifulSoup
 
# 获取网页内容的函数
def get_html(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except requests.RequestException:
        return None
 
# 解析网页并提取数据的函数
def parse_data(html):
    soup = BeautifulSoup(html, 'lxml')
    data_list = soup.select('div.item')
    for data in data_list:
        title = data.select('a')[0].text
        detail_url = data.select('a')[0]['href']
        print(title, detail_url)
 
# 主函数
def main():
    url = 'https://www.qiushibaike.com/'
    html = get_html(url)
    parse_data(html)
 
if __name__ == '__main__':
    main()

这段代码首先定义了一个获取网页内容的函数get_html，使用了requests库来发送HTTP请求，并设置了请求头来伪装浏览器访问。然后定义了一个解析网页并提取数据的函数parse_data，使用了BeautifulSoup库和CSS选择器来选取页面元素。最后，在main函数中调用了这两个函数，实现了简单的爬虫功能。

- 阅读更多 -

爬虫爬取百度图片——大量、多张图片

System

2024-08-23

所有,爬虫

要爬取百度图片的大量图片，可以使用Python的requests和beautifulsoup库。以下是一个简单的示例代码，用于爬取一个关键词的多张图片。




import requests
from bs4 import BeautifulSoup
import os
 
def download_image(image_url, file_path):
    response = requests.get(image_url, stream=True)
    if response.status_code == 200:
        with open(file_path, 'wb') as file:
            for chunk in response.iter_content(chunk_size=1024):
                if chunk:
                    file.write(chunk)
                    print(f"Image saved: {file_path}")
    else:
        print(f"Failed to download: {image_url}")
 
def crawl_baidu_images(keyword, max_images):
    download_dir = 'images/'
    os.makedirs(download_dir, exist_ok=True)
    base_url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word='
    url = base_url + keyword
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    image_urls = [img['src'] for img in soup.find_all('img', class_='main_img')][:max_images]
 
    for i, image_url in enumerate(image_urls):
        file_path = download_dir + f'{i+1}.jpg'
        download_image(image_url, file_path)
 
if __name__ == '__main__':
    keyword = 'tiananmen'  # 替换为你想要的关键词
    max_images = 20  # 最多下载的图片数量
    crawl_baidu_images(keyword, max_images)

请注意，这个代码仅用作学习和演示目的，实际使用时应遵守相关法律法规，并遵守网站的爬虫政策。对于大规模爬取，应设置适当的请求间隔，并考虑使用代理和session对象以维持会话。

System

2024-08-23

所有,爬虫




import requests
import execjs
 
# 目标URL
url = 'https://movie.douban.com/j/chart/top_list'
 
# 请求头部
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36',
    'Referer': 'https://movie.douban.com/chart'
}
 
# 请求参数
params = {
    'type': '24',
    'interval_id': '100:90',
    'action': '',
    'start': '0',
    'limit': '20'
}
 
# 用于解析JavaScript加密的函数
def get_sign(params):
    with open('jssdk.js', 'r', encoding='utf-8') as f:
        js_content = f.read()
    ctx = execjs.compile(js_content)
    sign = ctx.call('get_sign', params)
    return sign
 
# 加密参数 'sign'
params['sign'] = get_sign(params)
 
# 发送请求
response = requests.get(url, headers=headers, params=params)
 
# 打印响应内容
print(response.json())

这段代码首先定义了目标URL、请求头部和请求参数。然后定义了一个函数get_sign，用于读取JavaScript文件并调用其中的get_sign函数来获取加密的sign参数。接着，将加密后的参数加入到请求参数中，并发送请求。最后打印出响应内容。这个过程展示了如何逆向解析加密参数和响应数据的基本方法。

- 阅读更多 -

动态爬虫（以携程为目标，爬取评论分数留言等）

System

2024-08-23

所有,爬虫

由于原始代码已经包含了一个很好的示例，我们可以直接使用原始代码作为解决方案。以下是关键函数的简要说明和代码实例：




import requests
from lxml import etree
 
def get_comments(url):
    """
    获取旅行目的地评论数据
    :param url: 评论页面的URL
    :return: 返回包含评分和留言的字典列表
    """
    response = requests.get(url)
    if response.status_code == 200:
        html = etree.HTML(response.text)
        comments = html.xpath('//div[@class="comment_list"]/div[@class="day"]')
        result = []
        for comment in comments:
            score = comment.xpath('.//div[@class="score"]/strong/text()')[0]
            message = comment.xpath('.//div[@class="text"]/span/text()')[0].strip()
            result.append({'score': score, 'message': message})
        return result
    else:
        print("请求失败")
        return []
 
# 使用示例
url = 'https://you.ctrip.com/sight/3335.html#comments'
comments = get_comments(url)
for comment in comments:
    print(f'评分: {comment["score"]}, 留言: {comment["message"]}')

这段代码定义了一个get_comments函数，它接受一个URL作为参数，发送HTTP GET请求，解析返回的页面，提取评分和留言信息，并以列表的形式返回。使用时需要替换为具体的URL。

- 阅读更多 -

AI网络爬虫：对网页指定区域批量截图

System

2024-08-23

所有,爬虫

为了实现对网页指定区域批量截图的功能，我们可以使用Python语言搭配Selenium和Pillow库。以下是一个简单的示例代码：




from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from PIL import Image
import time
 
# 初始化WebDriver
driver = webdriver.Chrome()
 
# 打开网页
driver.get('http://example.com')
 
# 等待网页加载完成
wait = WebDriverWait(driver, 10)
 
# 找到所有需要截图的元素
elements = driver.find_elements(By.CSS_SELECTOR, 'div.screenshot-area')
 
# 循环处理每个元素
for index, element in enumerate(elements):
    # 将滚动条滚动至元素位置
    driver.execute_script("arguments[0].scrollIntoView(true);", element)
    # 等待元素完全加载
    wait.until(EC.visibility_of(element))
    # 保存整个网页的截图
    driver.save_screenshot(f'screenshot_{index}.png')
    # 获取元素的位置和尺寸
    location = element.location
    size = element.size
    # 截取指定区域的截图
    screenshot = Image.open(f'screenshot_{index}.png')
    # 计算截图的起始和结束坐标
    left = location['x']
    top = location['y']
    right = location['x'] + size['width']
    bottom = location['y'] + size['height']
    # 裁剪并保存截图
    screenshot = screenshot.crop((left, top, right, bottom))
    screenshot.save(f'element_{index}.png')
 
# 关闭WebDriver
driver.quit()

在这个代码中，我们首先使用Selenium打开网页，并使用find_elements方法找到所有需要截图的元素。然后，我们循环遍历这些元素，并使用Selenium的save_screenshot方法保存整个网页的截图。接下来，我们使用Pillow库打开这个截图文件，并根据元素的位置和尺寸裁剪出我们需要的截图区域，最后保存为单独的文件。

注意：在实际应用中，你需要根据目标网页的实际情况调整CSS选择器和Selenium定位元素的方法。此外，确保你的环境中安装了Selenium的WebDriver，例如ChromeDriver，并且它的路径已经添加到了系统的PATH变量中，以便Selenium能够正常启动浏览器。

- 阅读更多 -

网络编程 —— Http使用httpClient实现页面爬虫

System

2024-08-23

所有,爬虫

以下是使用httpClient实现简单网页爬虫的示例代码：




import http.client
 
def fetch_page(host, path):
    # 建立连接
    conn = http.client.HTTPSConnection(host)
 
    # 发送请求
    conn.request("GET", path)
 
    # 获取响应
    response = conn.getresponse()
    data = response.read()
 
    # 关闭连接
    conn.close()
 
    return data.decode()
 
def crawl_web_pages(url):
    # 解析URL
    from urllib.parse import urlparse
    parsed_url = urlparse(url)
    host = parsed_url.hostname
    path = parsed_url.path
    if path == '':
        path = '/'
 
    # 获取页面内容
    html_content = fetch_page(host, path)
 
    # 打印页面内容
    print(html_content)
 
# 使用示例
crawl_web_pages('https://www.example.com')

这个简单的爬虫示例仅用于演示目的，并不适合用于大规模的网页爬取，因为它没有实现如爬取计划、页面解析、异常处理、并发请求等功能。真实的爬虫需要考虑更多的因素，例如网页的robots.txt协议、限制请求频率、处理JavaScript渲染的页面等。

- 阅读更多 -