分类后端技术下的文章

2024-08-14




import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.data.redis.core.StringRedisTemplate;
import org.springframework.data.redis.listener.ChannelTopic;
import org.springframework.stereotype.Component;
 
@Component
public class RedisPubSub {
 
    @Autowired
    private StringRedisTemplate redisTemplate;
 
    @Autowired
    private ChannelTopic topic;
 
    public void publish(String message) {
        redisTemplate.convertAndSend(topic.getTopic(), message);
    }
 
    public void subscribe(RedisMessageListener listener) {
        redisTemplate.executeSubscribe(listener);
    }
}
 
// 消息监听器示例
public class RedisMessageListener implements MessageListener {
    @Override
    public void onMessage(Message message, byte[] pattern) {
        // 处理接收到的消息
        String receivedMessage = new String(message.getBody(), StandardCharsets.UTF_8);
        System.out.println("Received Redis message: " + receivedMessage);
    }
}

这个代码示例展示了如何在Spring Boot应用程序中使用StringRedisTemplate发送消息和订阅通道。RedisPubSub类中定义了发布和订阅方法，RedisMessageListener是一个简单的消息监听器示例，用于处理接收到的消息。

System

2024-08-14

所有,中间件

由于提供完整的RMI数据库中间件设计和应用实例超出了简短回答的范围，以下是一个简化的示例，展示如何使用RMI创建一个简单的数据库查询服务。




import java.rmi.Naming;
import java.rmi.RemoteException;
import java.rmi.server.UnicastRemoteObject;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.ArrayList;
import java.util.List;
 
public class DatabaseServiceImpl extends UnicastRemoteObject implements DatabaseService {
 
    private static final long serialVersionUID = 1L;
 
    protected DatabaseServiceImpl() throws RemoteException {
        super();
    }
 
    @Override
    public List<String> queryDatabase(String query) throws RemoteException {
        List<String> results = new ArrayList<>();
        try {
            Connection connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/mydatabase", "username", "password");
            PreparedStatement statement = connection.prepareStatement(query);
            ResultSet rs = statement.executeQuery();
            while (rs.next()) {
                results.add(rs.getString(1));
            }
            rs.close();
            statement.close();
            connection.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return results;
    }
 
    public static void main(String[] args) {
        try {
            DatabaseService service = new DatabaseServiceImpl();
            Naming.rebind("//localhost/DatabaseService", service);
            System.out.println("Database service is ready.");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}
 
interface DatabaseService extends java.rmi.Remote {
    List<String> queryDatabase(String query) throws RemoteException;
}

在这个例子中，我们定义了一个DatabaseService接口和它的实现DatabaseServiceImpl。queryDatabase方法通过RMI暴露，允许客户端提交SQL查询并获取结果。

请注意，为了运行这个示例，你需要：

有效的JDBC驱动程序包并且在类路径中。
有一个运行中的RMI注册表，可以在服务端使用Naming.rebind绑定服务。
确保数据库连接细节（例如URL、用户名和密码）是正确的。

这个简化的例子展示了如何使用RMI进行数据库通信的基本概念，但在实际应用中，你需要考虑安全性、错误处理、负载均衡、事务管理等多个方面。

- 阅读更多 -

Python web框架fastapi中间件的使用，CORS跨域详解

System

2024-08-14

所有,中间件




from fastapi import FastAPI
from fastapi.middleware.cors import CORSMiddleware
 
app = FastAPI()
 
# 添加CORS中间件
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],  # 允许任何域名访问
    allow_credentials=True,  # 允许凭证请求，例如cookies
    allow_methods=["*"],  # 允许任何HTTP方法
    allow_headers=["*"],  # 允许任何HTTP头
)
 
@app.get("/")
async def main():
    return {"message": "Hello World"}
 
# 运行应用
if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

这段代码展示了如何在FastAPI应用中添加CORS中间件，允许跨域请求。在实际部署时，出于安全考虑，通常会将allow_origins设置为特定的域名，而不是使用"*"（代表所有域名）。

- 阅读更多 -

selenium 爬虫的数据实战

System

2024-08-14

所有,爬虫




from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
 
# 初始化webdriver
driver = webdriver.Chrome()
 
# 打开网页
driver.get('https://www.example.com/')
 
# 等待网页加载
wait = WebDriverWait(driver, 10)
 
# 输入搜索关键字
wait.until(EC.element_to_be_clickable((By.ID, 'search-input'))).send_keys('Selenium')
 
# 点击搜索按钮
wait.until(EC.element_to_be_clickable((By.ID, 'search-button'))).click()
 
# 等待搜索结果加载
time.sleep(5)
 
# 获取搜索结果并打印
results = driver.find_elements(By.CSS_SELECTOR, 'li.result')
for result in results:
    print(result.text)
 
# 关闭webdriver
driver.quit()

这个代码示例使用了Selenium WebDriver来打开一个网页，输入搜索关键字，点击搜索按钮，并等待搜索结果的加载。然后，它会获取搜索结果并打印出来。最后，它会关闭webdriver，释放资源。这个过程展示了如何使用Selenium进行基本的网页操作和数据抓取。

- 阅读更多 -

【爬虫实战】用python爬取微博任意关键词搜索结果、exe文件

System

2024-08-14

所有,爬虫

由于提供的信息有限，以下是一个简单的Python爬虫示例，用于爬取微博任意关键字搜索结果的链接。由于微博的反爬机制较为严格，此代码仅供学习和测试目的使用，并不保证能够成功爬取微博的所有数据。




import requests
from bs4 import BeautifulSoup
 
def crawl_weibo(keyword):
    base_url = 'https://s.weibo.com/weibo/'
    params = {
        'q': keyword,
        'Refer': 'SWeibo_box',
        'page': '1',
        'feature': '1',
        'from': 'search_weibo_v6'
    }
 
    try:
        response = requests.get(base_url, params=params)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'lxml')
 
        # 提取微博链接
        links = soup.find_all('a', 'tc-link')
        for link in links:
            print(link['href'])
 
    except requests.exceptions.RequestException as e:
        print(e)
 
if __name__ == '__main__':
    keyword = 'Python'  # 替换为你想要搜索的关键词
    crawl_weibo(keyword)

请注意，微博对搜索结果页面的布局可能会更改，因此你可能需要调整HTML解析代码以匹配最新的页面结构。

关于exe文件，如果你指的是通过爬虫下载微博用户上传的可执行文件（通常不推荐），由于涉及到未授权的下载和执行未知的代码，这里不提供详细代码。如果你有合法的理由和明确的目的，请确保你有权限和责任下载和执行这些文件，并采取相应的安全措施。

- 阅读更多 -

Python房价分析pyton爬虫

System

2024-08-14

所有,爬虫




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
# 房价数据爬取函数
def get_data(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, 'lxml')
    return soup
 
# 解析数据函数
def parse_data(soup):
    data_list = []
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):  # 确保 tr 是一个标签
            tds = tr('td')
            data_list.append([tds[0].text, tds[1].text, tds[3].text])
    return data_list
 
# 保存数据到CSV
def save_to_csv(data_list, csv_file):
    df = pd.DataFrame(data_list, columns=['区域', '房源', '单价'])
    df.to_csv(csv_file, index=False, encoding='utf-8-sig')
 
# 主函数
def main(url, csv_file):
    soup = get_data(url)
    data_list = parse_data(soup)
    save_to_csv(data_list, csv_file)
 
if __name__ == '__main__':
    url = 'https://hz.lianjia.com/ershoufang/'
    csv_file = 'ershoufang.csv'
    main(url, csv_file)

这段代码实现了一个简单的房价数据爬取工具，它从某个房产交易网站爬取数据，解析页面中的表格数据，并将其保存到CSV文件中。代码使用了requests库来发送HTTP请求，BeautifulSoup库来解析HTML，以及pandas库来处理和保存数据。这个例子教会了如何组织代码，进行模块化设计，并且展示了如何应对简单的反爬虫策略。

- 阅读更多 -

【python爬虫】5.爬虫实操（歌词爬取）

System

2024-08-14

所有,爬虫




import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
 
# 设置代理服务器
proxies = {
    'http': 'http://12.34.56.79:8070',
    'https': 'http://12.34.56.79:8070',
}
 
def get_lyrics(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    res = requests.get(url, headers=headers, proxies=proxies)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'lxml')
    # 歌词通常在<div class="lyric-content">...</div>中
    lyric_content = soup.find('div', class_='lyric-content')
    if lyric_content:
        lyrics = lyric_content.get_text()
        # 清理多余的字符
        lyrics = re.sub(r'
<div class="katex-block">\[.*?\]</div>
', '', lyrics)
        return lyrics
    return '未找到歌词'
 
def main():
    df = pd.read_csv('music_data.csv', encoding='utf-8')
    for index, row in df.iterrows():
        url = row['url']
        try:
            lyrics = get_lyrics(url)
            print(f'正在抓取：{url}')
            with open(f'lyrics/{index}.txt', 'w', encoding='utf-8') as f:
                f.write(lyrics)
        except Exception as e:
            print(f'抓取失败：{e}')
 
if __name__ == '__main__':
    main()

这段代码修复了原代码中的一些问题，并添加了异常处理，以确保在遇到网络问题或其他错误时代码不会中断。同时，代码中使用了更为推荐的requests库来发送HTTP请求，并使用了BeautifulSoup进行网页解析。代理服务器的设置也已经被正确地应用到了请求中。

- 阅读更多 -

基于Go 1.19的站点模板爬虫

System

2024-08-14

所有,爬虫




package main
 
import (
    "fmt"
    "log"
    "net/http"
    "os"
    "time"
 
    "go.uber.org/zap"
    "go.uber.org/zap/zapcore"
    "golang.org/x/net/html"
)
 
// 初始化日志配置
func initLogger() (*zap.Logger, error) {
    encoderConfig := zapcore.EncoderConfig{
        TimeKey:        "ts",
        LevelKey:       "level",
        NameKey:        "logger",
        CallerKey:      "caller",
        MessageKey:     "msg",
        StacktraceKey:  "stacktrace",
        LineEnding:     zapcore.DefaultLineEnding,
        EncodeLevel:    zapcore.LowercaseLevelEncoder,
        EncodeTime:     zapcore.EpochMillisTimeEncoder,
        EncodeDuration: zapcore.SecondsDurationEncoder,
    }
    core := zapcore.NewCore(zapcore.NewJSONEncoder(encoderConfig), os.Stdout, zapcore.InfoLevel)
    return zap.New(core), nil
}
 
// 爬取指定URL的页面内容
func crawlPage(logger *zap.Logger, url string) (string, error) {
    client := &http.Client{Timeout: 10 * time.Second}
    resp, err := client.Get(url)
    if err != nil {
        logger.Error("Error fetching URL", zap.Error(err), zap.String("url", url))
        return "", err
    }
    defer resp.Body.Close()
 
    doc, err := html.Parse(resp.Body)
    if err != nil {
        logger.Error("Error parsing HTML", zap.Error(err), zap.String("url", url))
        return "", err
    }
 
    return doc.Text(), nil
}
 
func main() {
    logger, err := initLogger()
    if err != nil {
        log.Fatalf("无法初始化日志: %v", err)
    }
    defer logger.Sync()
 
    url := "https://example.com"
    content, err := crawlPage(logger, url)
    if err != nil {
        logger.Error("爬取页面失败", zap.Error(err), zap.String("url", url))
        return
    }
 
    fmt.Printf("爬取的页面内容: %s\n", content)
}

这段代码使用了Go 1.19的特性，并修正了原代码中的一些问题，例如日志配置的初始化和错误处理。它展示了如何使用zap库来初始化一个日志系统，并且如何使用net/http和golang.org/x/net/html包来进行HTTP请求和HTML解析。这个例子是一个简单的网络爬虫，它抓取一个指定的URL并打印出页面的文本内容。

- 阅读更多 -

机器学习：基于Python 机器学习进行医疗保险价格预测

System

2024-08-14

所有,python




import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
 
# 假设data是包含医疗保险数据的DataFrame
data = pd.read_csv('data.csv')  # 替换为你的数据文件路径
 
# 分离特征和目标变量
X = data[['feature1', 'feature2', 'feature3']]
y = data['target']
 
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
# 创建和训练随机森林模型
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
 
# 进行预测
y_pred = model.predict(X_test)
 
# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
 
# 保存模型
from joblib import dump
dump(model, 'model.joblib')
 
# 注意：以上代码需要提前安装pandas、scikit-learn、joblib库，并且有包含特征'feature1', 'feature2', 'feature3'和目标变量'target'的数据文件。

这段代码展示了如何使用Python进行医疗保险价格的预测分析，其中包括数据读取、特征选择、模型训练、验证和保存。这是一个基于随机森林的回归模型，适用于那些希望了解如何在实际医疗保险价格预测场景中应用机器学习技术的开发者。

System

2024-08-14

所有,python

在Python中，@staticmethod 和 @classmethod 是装饰器，用于修饰类中的方法，使得方法具有特定的用途。

@staticmethod 装饰器会使得该方法成为一个静态方法，它不接收特定的self或cls参数，即它是一个与类或其实例无关的普通函数，只是把它放在了类的命名空间里。
@classmethod 装饰器会使得该方法成为一个类方法，它接收cls参数（代表类本身），但不接收self（代表实例）。类方法允许在不创建类的实例的情况下调用。

下面是两者的简单示例：




class MyClass:
    @staticmethod
    def static_method():
        print("This is a static method.")
 
    @classmethod
    def class_method(cls):
        print("This is a class method.")
 
# 调用静态方法
MyClass.static_method()
 
# 调用类方法
MyClass.class_method()

在这个例子中，static_method 不需要访问实例或类变量，所以我们使用了 @staticmethod 。而 class_method 需要访问类变量，所以我们使用了 @classmethod 。

- 阅读更多 -