分类后端技术下的文章

2024-08-09




import com.alibaba.csp.sentinel.Entry;
import com.alibaba.csp.sentinel.SphU;
import com.alibaba.csp.sentinel.annotation.SentinelResource;
import com.alibaba.csp.sentinel.slots.block.BlockException;
import com.alibaba.csp.sentinel.slots.block.RuleConstant;
import com.alibaba.csp.sentinel.slots.block.flow.FlowRule;
import com.alibaba.csp.sentinel.slots.block.flow.FlowRuleManager;
 
import java.util.ArrayList;
import java.util.List;
 
public class SentinelExample {
 
    static {
        initFlowRules();
    }
 
    private static void initFlowRules() {
        List<FlowRule> rules = new ArrayList<>();
        FlowRule rule = new FlowRule();
        rule.setResource("test");
        rule.setGrade(RuleConstant.FLOW_GRADE_QPS);
        // Set limit to 20 calls per second.
        rule.setCount(20);
        rules.add(rule);
        FlowRuleManager.loadRules(rules);
    }
 
    @SentinelResource(value = "test", blockHandler = "handleException")
    public void test() {
        System.out.println("Test resource invoking...");
    }
 
    public void handleException(BlockException ex) {
        System.err.println("Test resource handled exception: " + ex.getClass().getCanonicalName());
    }
 
    public static void main(String[] args) {
        while (true) {
            Entry entry = null;
            try {
                entry = SphU.entry("test");
                // Your business logic here.
                test();
            } catch (BlockException ex) {
                // Handle blocked exception.
                System.err.println("Blocked!");
            } finally {
                if (entry != null) {
                    entry.exit();
                }
            }
        }
    }
}

这段代码演示了如何使用Sentinel的注解和API来实现服务的限流。首先，我们初始化了一条流量控制规则，设置了资源名为"test"的QPS阈值为20。接着，我们定义了一个带有Sentinel资源注解的test方法，并指定了异常处理方法handleException。在main方法中，我们持续尝试进入名为"test"的资源，如果被限流，会触发BlockException异常，并调用handleException方法处理。这个例子简单地打印出了异常信息，实际应用中可以根据需要进行更复杂的异常处理。

- 阅读更多 -

【中间件】Nginx性能监控和优化

System

2024-08-09

所有,中间件

为了监控和优化Nginx性能，我们可以使用Nginx自带的状态模块stub_status。首先，需要在Nginx配置中启用该模块。

编辑Nginx配置文件（通常是nginx.conf），在需要监控的server块中添加stub_status位置。




server {
    listen 80;
    server_name localhost;
 
    location /nginx_status {
        stub_status on;          # 开启状态模块
        access_log off;         # 关闭日志记录
        allow 127.0.0.1;       # 只允许本地访问
        deny all;               # 拒绝其他IP访问
    }
}

重新加载Nginx配置以应用更改：




sudo nginx -s reload

使用curl或者浏览器访问状态页面：




curl http://localhost/nginx_status

输出示例：




Active connections: 43 
server accepts handled requests
 7368 7368 10993 
Reading: 0 Writing: 5 Waiting: 38

监控和优化可以包括但不限于以下方面：

检查Active connections：如果这个数值持续增长，可能需要增加worker_connections值。
查看Reading、Writing、Waiting的数值：如果Waiting数值远远大于Reading+Writing，可能需要调整worker_connections和keepalive_timeout设置。

优化可以包括：

调整worker_connections：增加最大连接数。
调整keepalive_timeout：减少长连接的持续时间。
调整worker_processes：增加工作进程数，利用多核。

记得每次修改配置后都需要重新加载Nginx以应用更改。

System

2024-08-09

所有,中间件




# 使用Debian为基础镜像
FROM debian:buster-slim
 
# 安装InfluxDB
RUN apt-get update && apt-get install -y influxdb
 
# 复制InfluxDB配置文件
COPY influxdb.conf /etc/influxdb/influxdb.conf
 
# 设置环境变量，指定配置文件
ENV INFLUXDB_CONFIG_PATH /etc/influxdb/influxdb.conf
 
# 暴露端口
EXPOSE 8086
 
# 启动InfluxDB服务
CMD ["influxd", "-config", "/etc/influxdb/influxdb.conf"]




import org.influxdb.dto.BatchPoints;
import org.influxdb.dto.Point;
import org.influxdb.dto.Query;
import org.influxdb.impl.InfluxDBImpl;
import org.influxdb.InfluxDBFactory;
import java.util.concurrent.TimeUnit;
 
public class InfluxDBService {
 
    private InfluxDBImpl influxDB;
 
    public InfluxDBService(String url, String user, String password, String database) {
        influxDB = (InfluxDBImpl) InfluxDBFactory.connect(url, user, password);
        influxDB.setDatabase(database);
    }
 
    public void writeData(String measurement, String tag, String field, Long value) {
        Point point = Point.measurement(measurement)
                .tag(tag, tag)
                .addField(field, value)
                .build();
        influxDB.write(point);
    }
 
    public void queryData(String query) {
        Query querySpec = new Query(query, influxDB.getDatabase());
        influxDB.query(querySpec);
    }
 
    public void close() {
        influxDB.close();
    }
}

在这个示例中，我们首先创建了一个Dockerfile，用于构建包含InfluxDB的Docker镜像。然后，我们提供了一个简单的Java类，用于与InfluxDB交互，包括写入数据和执行查询。这个类使用了InfluxDB客户端库来与InfluxDB服务器进行通信。

- 阅读更多 -

【新闻爬虫】基于python的新闻爬虫网站设计课题背景、目的、意义、研究思路

System

2024-08-09

所有,爬虫

课题背景：

在当前信息爆炸的时代，获取及处理新闻数据具有重要的实际和理论价值。设计一个新闻爬虫系统可以帮助我们自动化地抓取和分析新闻数据，为相关研究和决策提供支持。

课题目的：

设计一个新闻爬虫系统，能够自动抓取特定新闻网站的新闻文章，存储在本地或数据库中，并进行必要的数据处理和分析。

课题意义：

数据获取：自动化抓取新闻数据，方便进行大规模的新闻数据分析。
信息处理：对新闻内容进行文本挖掘、情感分析等，获取隐藏的信息，如热点话题、社会趋势等。
决策支持：新闻数据可用于市场调研、公司新闻分析、政策分析等，为决策者提供参考。

研究纲要：

网络爬虫技术：使用Python的爬虫库（如BeautifulSoup、Scrapy）来分析网页结构和抓取新闻。
数据存储与管理：选择合适的数据库（如SQLite、MySQL、MongoDB）存储爬取的数据。
数据清洗与预处理：进行数据的去重、去噪等，以保证数据质量。
文本处理与分析技术：使用自然语言处理库（如NLTK）进行文本挖掘和情感分析。
可视化与报告：使用图形化方式展示数据分析结果，如新闻热图、词云等。

研究方法：

确定爬虫目标网站和需要抓取的新闻文章信息。
设计爬虫算法，包括页面解析、链接追踪、并发请求管理等。
实现爬虫，编写Python代码，运行爬虫进行数据抓取。
数据存储与管理，将抓取的数据存入数据库。
数据分析与挖掘，使用文本处理工具进行情感分析、关键词提取等。
编写报告，展示分析结果，并讨论可能的改进和扩展。

- 阅读更多 -

Go Web 爬虫快速启动指南

System

2024-08-09

所有,爬虫




package main
 
import (
    "fmt"
    "net/http"
    "os"
 
    "github.com/PuerkitoBio/goquery"
)
 
func main() {
    // 检查命令行参数
    if len(os.Args) != 2 {
        fmt.Fprintf(os.Stderr, "Usage: %s <url>\n", os.Args[0])
        os.Exit(1)
    }
 
    // 启动并行的HTTP客户端
    url := os.Args[1]
    res, err := http.Get(url)
    if err != nil {
        panic(err)
    }
    defer res.Body.Close()
 
    if res.StatusCode != 200 {
        fmt.Fprintf(os.Stderr, "Failed to fetch %s, status code: %d\n", url, res.StatusCode)
        os.Exit(1)
    }
 
    // 使用goquery解析HTML文档
    doc, err := goquery.NewDocumentFromReader(res.Body)
    if err != nil {
        panic(err)
    }
 
    // 查询并打印所有的段落文本
    doc.Find("p").Each(func(i int, s *goquery.Selection) {
        fmt.Printf("Paragraph %d: %s\n", i, s.Text())
    })
}

这段代码修复了原始代码中的错误，并添加了必要的错误处理和命令行参数检查。它演示了如何使用Go语言快速编写一个简单的Web爬虫，用于抓取给定URL的所有段落文本。

- 阅读更多 -

使用puppeteer实现一个简单的爬虫

System

2024-08-09

所有,爬虫

以下是一个使用Puppeteer实现的简单爬虫示例，它将爬取指定网页上的所有链接，并将它们输出到控制台：




const puppeteer = require('puppeteer');
 
async function crawlLinks(url) {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto(url);
 
  // 获取页面上所有的链接
  const links = await page.$$eval('a', links => links.map(link => link.href));
 
  // 输出链接
  console.log(links);
 
  await browser.close();
}
 
// 使用方法：crawlLinks('https://example.com');

确保你已经安装了Puppeteer依赖：




npm install puppeteer

在运行这个脚本之前，请确保你理解和遵守网站的robots.txt规则，以及你有权限抓取这个网站的数据。不要进行任何可能违反条款的爬虫行为。

- 阅读更多 -

【爬虫】使用Python爬取百度学术页面的标题、作者、摘要和关键词

System

2024-08-09

所有,爬虫




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
# 设置请求头，模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
def get_papers(url):
    # 发送GET请求
    response = requests.get(url, headers=headers)
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'lxml')
    # 初始化列表存储结果
    titles, authors, summaries, keywords = [], [], [], []
 
    # 查找所有的paper列表项
    for paper in soup.select('.paper-list-item'):
        # 提取标题
        title = paper.select_one('.paper-title').text.strip()
        titles.append(title)
        # 提取作者
        authors_text = paper.select_one('.paper-authors').text.strip()
        authors.append(authors_text)
        # 提取摘要
        summary = paper.select_one('.paper-abstract').text.strip()
        summaries.append(summary)
        # 提取关键词
        keyword_text = paper.select_one('.paper-keywords').text.strip()
        keywords.append(keyword_text)
 
    # 创建DataFrame存储结果
    df = pd.DataFrame({
        '标题': titles,
        '作者': authors,
        '摘要': summaries,
        '关键词': keywords
    })
    return df
 
# 设置起始URL
start_url = 'https://xueshu.baidu.com/usercenter/paperlist?uid=1879782445&tab=all&start=0'
# 获取并打印结果
papers_df = get_papers(start_url)
print(papers_df)

这段代码使用了requests库来发送HTTP请求，BeautifulSoup库来解析HTML，以及pandas库来存储和打印结果。代码中的get_papers函数接受一个URL作为参数，发送请求，解析页面，提取标题、作者、摘要和关键词，并将它们存储在一个DataFrame中返回。这个例子展示了如何使用Python爬取特定网页上的结构化数据，并且是学习网络爬虫技术的一个很好的起点。

- 阅读更多 -

利用python批量遍历多个Excel表格文件中指定内容并汇总

System

2024-08-09

所有,python

为了解决这个问题，我们可以使用Python的pandas库来处理Excel文件，并使用glob库来遍历文件夹中的所有Excel文件。以下是一个简单的代码示例，它会遍历指定文件夹中的所有Excel文件，搜索指定的内容，并计算出现的次数。




import pandas as pd
import glob
 
# 要搜索的内容
search_term = '特定内容'
 
# Excel文件所在的文件夹路径
folder_path = '路径到文件夹/*.xlsx'
 
# 用于存储每个文件中搜索内容的出现次数
counts = {}
 
# 遍历文件夹中的所有Excel文件
for file_path in glob.glob(folder_path):
    try:
        # 读取Excel文件
        df = pd.read_excel(file_path)
        # 搜索内容，并计算出现的次数
        count = df.applymap(lambda x: x == search_term).any().sum()
        # 将文件名和次数添加到字典中
        counts[file_path] = count
    except Exception as e:
        print(f"无法处理文件 {file_path}: {e}")
 
# 打印出搜索内容出现的总次数
print("搜索内容出现的总次数:")
for file_path, count in counts.items():
    print(f"{file_path}: {count}")

确保你已经安装了pandas和glob库，如果没有安装，可以使用以下命令安装：




pip install pandas xlrd glob

在这个代码中，folder_path需要被设置为包含你的Excel文件的文件夹的路径。代码会遍历该文件夹中所有的Excel文件（.xlsx），并对每个文件执行搜索指定内容的操作。最后，它会打印出每个文件中搜索内容出现的次数以及总和。

- 阅读更多 -

【Python】 Python中带‘b‘前缀的字符串：字节字符串的奥秘

System

2024-08-09

所有,python

在Python中，带有b前缀的字符串是字节字符串（byte string）。它用于表示二进制数据，其中每个字符都是一个字节。

字符串前加上b前缀的好处是可以避免字符串在编码转换时出现的问题，特别是在处理二进制数据时。

示例代码：




# 创建一个字节字符串
byte_string = b"Hello, World!"
 
# 字节字符串可以用在读写文件时
with open("example.txt", "wb") as file:
    file.write(byte_string)
 
with open("example.txt", "rb") as file:
    content = file.read()
 
# 打印读取的内容
print(content)  # 输出: b'Hello, World!'
 
# 字节字符串也可以用于网络数据传输
import socket
 
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.connect(('www.example.com', 80))
s.send(b"GET / HTTP/1.1\r\nHost: www.example.com\r\n\r\n")

在上述代码中，我们创建了一个字节字符串并写入到文件中，然后从文件中读取并打印出内容。同时，我们也展示了如何在网络编程中使用字节字符串发送数据。

- 阅读更多 -

python:使用scipy及numpy对三维空间点进行插值并可视化

System

2024-08-09

所有,python




import numpy as np
from scipy import interpolate
import matplotlib.pyplot as plt
 
# 创建一些在三维空间中的点
points = np.array([[0, 0, 0], [1, 1, 1], [2, 2, 2], [3, 3, 3]])
values = np.array([1, 2, 3, 4])
 
# 对这些点进行线性插值
def linear_interpolation(xi, yi, zi):
    # 创建线性插值对象
    interpolator = interpolate.LinearNDInterpolator(points, values)
    # 计算插值点的值
    return interpolator(xi, yi, zi)
 
# 创建一个网格，在三维空间中进行插值
x = np.linspace(0, 3, 100)
y = np.linspace(0, 3, 100)
z = np.linspace(0, 3, 100)
X, Y, Z = np.meshgrid(x, y, z)
 
# 计算网格上的插值
V = linear_interpolation(X, Y, Z)
 
# 可视化结果
fig = plt.figure()
ax = fig.gca(projection='3d')
ax.plot(points[:, 0], points[:, 1], points[:, 2], 'ro', markersize=10)
ax.view_init(elev=20., azim=-35)
surf = ax.plot_surface(X, Y, V, cmap=plt.cm.coolwarm, linewidth=0, antialiased=False)
fig.colorbar(surf, shrink=0.5, aspect=5)
plt.show()

这段代码首先创建了一些在三维空间中的点，然后使用scipy的LinearNDInterpolator对这些点进行线性插值。接着，我们在三维空间中创建了一个网格，并计算了网格上每个点的插值结果。最后，我们使用matplotlib的pyplot来可视化插值结果，包括原始的点和网格上的插值表面。

- 阅读更多 -