分类后端技术下的文章

2024-08-13

该项目是一个使用Spring Boot框架开发的旅游美食推荐系统。以下是如何运行该项目的简要步骤：

确保您有Java开发环境和Maven或Gradle构建工具。
从GitHub或其他源克隆该项目的代码仓库。
导入项目到您的IDE（如IntelliJ IDEA或Eclipse）。
配置数据库连接，例如在application.properties文件中设置数据库URL、用户名和密码。
运行数据库迁移脚本，确保数据库结构是最新的。
构建并运行项目。

如果您想要参考代码，可以在项目的src目录下找到。

请注意，由于该项目是一个示例，可能需要您自己根据实际需求进行定制化开发。

认识爬虫：提取网站 cookie 信息，并使用 cookie 信息实现登录

2024-08-13




import requests
 
# 定义一个函数来登录网站
def login_to_website(login_url, session, headers, login_data):
    response = session.post(login_url, headers=headers, data=login_data)
    print(f"登录结果: {response.status_code}")
 
# 定义一个函数来提取网站的cookies
def extract_cookies(session, url):
    response = session.get(url)
    for cookie in response.cookies:
        print(f"{cookie.name} = {cookie.value}")
 
# 初始化requests会话
session = requests.session()
 
# 目标网站的登录URL
login_url = "http://example.com/login"
 
# 用户提供的headers和登录数据
headers = {
    "User-Agent": "Mozilla/5.0",
    # 其他需要的headers
}
login_data = {
    "username": "user",
    "password": "pass"
    # 其他登录所需的数据
}
 
# 进行登录
login_to_website(login_url, session, headers, login_data)
 
# 提取并打印cookies
extract_cookies_url = "http://example.com"
extract_cookies(session, extract_cookies_url)

这段代码首先定义了两个函数，一个用于登录网站，另一个用于提取和打印网站的cookies。然后，它使用requests库初始化了一个会话对象，并使用这个会话对象来模拟登录，并获取登录后的cookies。最后，它打印出了提取到的cookies。这个例子展示了如何使用Python的requests库来进行基本的网络爬虫工作。

2024-08-13

以下是一个使用Python的requests库、selenium库和beautifulsoup库来爬取百度搜索结果中各网页正文内容的示例代码。请注意，这个例子仅用于学习目的，实际应用中可能需要遵守相关法律法规，并且可能涉及到自动化测试和数据抓取的道德标准。




from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import requests
import time
 
# 初始化webdriver
driver_path = 'path/to/your/chromedriver'  # 替换为你的ChromeDriver路径
driver = webdriver.Chrome(executable_path=driver_path)
 
# 设置搜索词
search_term = "Python"
 
# 打开百度首页
driver.get("https://www.baidu.com")
 
# 等待输入框被加载出来
input_box = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, 'kw'))
)
 
# 输入搜索词
input_box.send_keys(search_term)
 
# 提交搜索
submit_button = driver.find_element_by_id('su')
submit_button.click()
 
# 等待搜索结果加载完成
results = WebDriverWait(driver, 20).until(
    EC.presence_of_all_elements_located((By.CSS_SELECTOR, '.result.c-container'))
)
 
# 循环遍历搜索结果
for result in results:
    # 获取结果链接
    link = result.find_element_by_css_selector('.t a').get_attribute('href')
    
    # 使用requests获取页面内容
    res = requests.get(link)
    soup = BeautifulSoup(res.text, 'html.parser')
    
    # 找到正文
    content = soup.find('div', class_='content')
    if content:
        print(content.get_text())
    else:
        print('正文未找到')
 
    # 为了避免被封，每次循环后暂停一段时间
    time.sleep(5)
 
# 清理webdriver
driver.quit()

请确保在运行代码前已经安装了selenium库(pip install selenium)、beautifulsoup库(pip install beautifulsoup4)以及对应的浏览器驱动程序（如ChromeDriver），并且已经正确配置了driver_path变量。

以上代码实现了以下功能：

启动一个webdriver（这里以Chrome为例）。
打开百度首页并输入搜索词。
提交搜索并等待搜索结果加载完成。
遍历搜索结果，使用requests库获取每个结果页面的内容。
使用beautifulsoup解析页面并寻找正文内容。
打印正文内容或者提示正文未找到。
循环结束后清理webdriver实例。

注意：为了避免被搜索引擎或网站认为是爬虫，代码中添加了时间延迟。在实际应用中，应当根据需要和网站的政策合理地设置延迟，或者采用更高级的反爬机制处理。

2024-08-13




# 导入必要的模块
import requests
from bs4 import BeautifulSoup
import jieba
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import re
 
# 设置一些基本的常量
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
stopwords = pd.read_csv('stopwords.txt', index_col=False, sep='\t', quoting=3)
stopwords = stopwords['word'].values.tolist()
 
# 爬取某博文章的热搜标题
def get_baidu_hot_search(date):
    url = 'http://top.baidu.com/buzz?b=1&p=1&d=1'
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'lxml')
    titles = soup.find_all('a', {'class': 'list-title'})
    times = soup.find_all('span', {'class': 'list-num'})
    result = []
    for title, time in zip(titles, times):
        result.append({
            'title': title.get_text(),
            'search_num': time.get_text()
        })
    return result
 
# 获取文本情感倾向
def get_sentiment(text):
    # 这里应该是情感分析的代码，例如调用某个情感分析API或者模型
    # 返回情感分值，例如正面分值和负面分值
    pass
 
# 分析某一天的热搜情感
def analyze_sentiment_on_day(date):
    hot_searches = get_baidu_hot_search(date)
    titles = [hs['title'] for hs in hot_searches]
    results = []
    for title in titles:
        # 这里应该是调用情感分析函数，并将结果添加到results列表中
        pass
    return results
 
# 绘制热搜词云
def draw_word_cloud(text):
    wordlist = jieba.cut(text)
    wordspace_split = ' '.join(wordlist)
    stopwords_list = stopwords
    wordcloud = WordCloud(background_color="white",
                          mask=plt.imread('china_location_map.png'),
                          stopwords=stopwords_list,
                          font_path='simhei.ttf',
                          max_words=200,
                          max_font_size=100,
                          random_state=42)
    mywordcloud = wordcloud.generate(wordspace_split)
    plt.imshow(mywordcloud)
    plt.axis('off')
    plt.show()
 
# 主函数
if __name__ == '__main__':
    date = '2020-01-01'
    results = analyze_sentiment_on_day(date)
    text = ' '.join([result['title'] for result in results])
    draw_word_cloud(text)

这个代码实例提供了一个框架，展示了如何使用Python爬取某博热搜数据，并使用结巴分词、去停用词、绘制词云等方法来分析这些数据。这个过程是构建舆情分析系统的一个基本步骤，它教会用户如何进行基本的文本处理和情感

C++ 高性能爬虫

2024-08-13

为了创建一个高性能的C++爬虫，我们可以使用libcurl库来处理网络请求，使用pugixml库来解析HTML，并且使用boost::asio来处理异步IO操作。以下是一个简化的例子，展示了如何使用这些库来创建一个简单的网页爬虫。




#include <iostream>
#include <string>
#include <curl/curl.h>
#include <pugixml.hpp>
#include <boost/asio.hpp>
 
using namespace std;
using namespace boost::asio;
 
// 这是一个简单的回调函数，用于接收curl请求的响应数据
size_t WriteCallback(void *contents, size_t size, size_t nmemb, void *userp) {
    ((std::string*)userp)->append((char*)contents, size * nmemb);
    return size * nmemb;
}
 
// 发送HTTP GET请求
void sendRequest(const std::string &url, std::string &html) {
    CURL *curl;
    CURLcode res;
 
    curl = curl_easy_init();
    if(curl) {
        curl_easy_setopt(curl, CURLOPT_URL, url.c_str());
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &html);
        res = curl_easy_perform(curl);
        if(res != CURLE_OK) {
            cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << endl;
        }
        curl_easy_cleanup(curl);
    }
}
 
// 解析HTML并打印出链接
void parseHtml(const std::string &html) {
    pugi::xml_document doc;
    if (!doc.load_string(html.c_str()).status) {
        cerr << "Failed to parse HTML" << endl;
        return;
    }
 
    for (pugi::xml_node a : doc.select_nodes("//a")) {
        pugi::xml_node href = a.child("href");
        if (href) {
            cout << href.text().get() << endl;
        }
    }
}
 
int main() {
    io_service service;
    ip::tcp::socket socket(service);
 
    // 这里只是示例，实际爬虫可能需要处理多个URL
    std::string url = "http://example.com";
    std::string html;
 
    sendRequest(url, html);
    parseHtml(html);
 
    return 0;
}

这个例子中，sendRequest函数使用libcurl来发送HTTP GET请求，并将响应内容传递给parseHtml函数，后者使用pugixml来解析HTML并打印出所有的链接。这个例子并没有实现完整的爬虫，因为它没有处理多线程、异步IO、URL队列、去重、页面深度控制等高性能爬虫需要考虑的因素。实际的高性能爬虫还需要更复杂的实现，包括并发控制、资源管理和异常处理等。

简单爬虫：东方财富网股票数据爬取

2024-08-13

以下是一个简单的示例代码，用于爬取东方财富网（http://quote.eastmoney.com/center/grid.html）上某股票（例如“600771”）在2023年12月30日的数据。




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
# 股票代码
stock_code = "600771"
 
# 设置请求头，模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
# 东方财富网股票历史数据URL
url = f'http://quotes.money.163.com/service/chddata.html?code=1.{stock_code}&start=20231229&end=20231230'
 
# 发送请求
response = requests.get(url, headers=headers)
 
# 检查请求是否成功
if response.status_code == 200:
    # 解析数据
    data = response.text.split('~')
    data.pop(0)  # 移除数组中的空数据
 
    # 转换数据为DataFrame
    df = pd.DataFrame(data, columns=['日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额'])
 
    # 将日期字段转换为日期格式
    df['日期'] = pd.to_datetime(df['日期'], format='%Y%m%d')
 
    # 转换其他数字字段为浮点型
    for col in df.columns[1:]:
        df[col] = df[col].astype('float')
 
    # 输出结果
    print(df)

这段代码首先设置了股票代码和请求头，然后构造了请求的URL。接着，它发送请求，检查响应状态，并解析返回的文本数据。最后，它将数据转换为Pandas DataFrame，并对其进行了一些清洗工作，如转换日期格式和数据类型，最后打印出来。

注意：

这个例子假设只获取2023年12月30日的数据，实际上可以通过调整URL中的start和end参数来获取不同时间段的数据。
东方财富网可能有反爬机制，如果代码无法正常工作，可能需要更新或修改请求头信息，以模拟真实的浏览器访问。

2024-08-13

Keras是一个用Python编写的开源神经网络库，可以作为TensorFlow、CNTK或Theano的高层接口使用。Keras为开发者提供了一个灵活的神经网络开发流程，可以快速地原型化深度学习模型，同时支持convnets、recurrent neural networks、以及mix-and-match。

安装Keras通常需要安装对应的深度学习后端（如TensorFlow、CNTK等），以下是在Python中安装Keras的步骤：




pip install keras

如果你使用的是TensorFlow作为后端，你可能需要安装TensorFlow版本的Keras：




pip install tensorflow

或者




pip install keras-tensorflow

使用Keras创建一个简单的序列模型：




from keras.models import Sequential
from keras.layers import Dense
 
model = Sequential()
model.add(Dense(units=64, activation='relu', input_dim=100))
model.add(Dense(units=10, activation='softmax'))
 
model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
 
model.fit(x_train, y_train, epochs=5, batch_size=32)
 
loss_and_metrics = model.evaluate(x_test, y_test)
 
classes = model.predict(x_test, batch_size=128)

注意事项：

确保你的Python环境配置正确，并且与Keras和所选择的后端兼容。
根据你的GPU支持和配置，安装对应的深度学习框架和Keras版本。
在使用Keras之前，请确保已经安装了必要的依赖项，如NumPy、SciPy等。
在使用Keras进行模型训练时，确保有足够的数据和计算资源来处理大型模型和数据集。

Python + selenium —— xpath定位方法详解！

2024-08-13

在Python的Selenium库中，XPath是一种非常强大的元素定位方式。XPath是一种在XML（HTML可以被视为XML的一种特殊情况）文档中查找信息的语言，它可以用来在HTML中对元素进行定位。

以下是一些常用的XPath定位方法：

绝对路径定位：

绝对路径定位方法是最直接的一种方式，但是如果页面结构有变化，可能就需要重新定位。




element = driver.find_element_by_xpath('/html/body/div/form/input[1]')

相对路径定位：

相对路径定位方法是一种更为稳定的定位方式，它不需要完全指定元素的路径，只需要指定其相对于其他元素的位置关系即可。




element = driver.find_element_by_xpath('//form/input[1]')

属性定位：

如果页面中的元素有唯一的属性（如id、name、class等），可以直接通过这些属性进行定位。




element = driver.find_element_by_xpath("//input[@id='su']")

索引定位：

在XPath中，可以使用索引定位到元素，索引是以1开始的。




element = driver.find_element_by_xpath("//input[1]")

模糊匹配定位：

contains()函数可以用来进行模糊匹配，匹配包含指定内容的元素。




element = driver.find_element_by_xpath("//a[contains(text(),'新闻')]")

逻辑运算定位：

可以使用逻辑运算符and、or进行组合查询。




element = driver.find_element_by_xpath("//input[@class='su' and @id='su']")

轴定位：

轴定位可以定位到某个元素的父元素、子元素、兄弟元素等。




element = driver.find_element_by_xpath("//input/..")  # 定位到input元素的父元素

文本定位：

text()可以用来匹配元素的文本内容。




element = driver.find_element_by_xpath("//a[text()='新闻']")

以上就是一些常用的XPath定位方法，在实际使用中可以根据页面的实际情况选择合适的定位方式。

Python绘制风速风场图

2024-08-13




import matplotlib.pyplot as plt
import numpy as np
 
# 假设以下变量已经根据你的数据进行初始化和计算
u_wind = np.array([...])  # 风的x分量，应该是一个二维数组
v_wind = np.array([...])  # 风的y分量，应该是一个二维数组
 
# 计算风速
wind_speed = np.sqrt(u_wind**2 + v_wind**2)
 
# 设置地图和画布
plt.figure(figsize=(12, 9))
plt.contourf(u_wind, v_wind, wind_speed, 8, cmap='jet')
 
# 设置色条
plt.colorbar()
 
# 显示图像
plt.show()

这个代码示例展示了如何使用Matplotlib库结合NumPy来绘制风速风场图。在这个例子中，u_wind和v_wind是表示风的x和y分量的二维数组，wind_speed是对应每个点的风速值。contourf函数用于创建填充的风速等高线图，colorbar用于显示色条，最后使用show显示图像。

Python - 面向现实世界的人脸复原 GFP-GAN 简介与使用

2024-08-13




import torch
from torch import nn
from torch.nn import functional as F
 
class GFP(nn.Module):
    """
    实现人脸复原的GFP模块。
    """
    def __init__(self, in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros'):
        super(GFP, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding, dilation, groups, bias, padding_mode)
        self.gamma = nn.Parameter(torch.ones(1))
        self.beta = nn.Parameter(torch.zeros(1))
 
    def forward(self, x):
        output = self.conv(x)
        norm = torch.sqrt(torch.mean(output ** 2, dim=1, keepdim=True))
        output = self.gamma * output / norm + self.beta
        return output
 
# 示例：使用GFP模块
input_tensor = torch.randn(1, 512, 4, 4)  # 假设输入特征图大小为4x4
gfp_layer = GFP(512, 512, 3, padding=1)
output_tensor = gfp_layer(input_tensor)
print(output_tensor.shape)  # 输出: torch.Size([1, 512, 4, 4])

这个代码实例展示了如何定义一个GFP模块，并使用它对输入的特征图进行处理。在实例化GFP类后，我们创建了一个随机的输入特征图，并通过GFP模块进行转换，最后打印出输出特征图的形状以验证模块的正确性。