分类后端技术下的文章

2024-08-19

这是一个关于Python网络请求、简单爬虫、Socket编程和多线程的概述和代码示例。

网络请求使用requests库：




import requests
 
response = requests.get('https://www.example.com')
print(response.text)

简单爬虫使用BeautifulSoup解析HTML内容：




from bs4 import BeautifulSoup
import requests
 
url = 'https://www.example.com'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
 
# 提取所有的链接
for link in soup.find_all('a'):
    print(link.get('href'))

Socket编程示例：




import socket
 
# 创建一个socket对象
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
 
# 建立连接
s.connect(('www.example.com', 80))
 
# 发送数据
s.send(b'GET / HTTP/1.1\r\nHost: www.example.com\r\nConnection: close\r\n\r\n')
 
# 接收响应
response = s.recv(1024)
 
print(response)
 
# 关闭连接
s.close()

多线程示例：




from threading import Thread
 
def task(n):
    print(f'Thread {n} is running')
 
# 创建并启动线程
t1 = Thread(target=task, args=(1,))
t2 = Thread(target=task, args=(2,))
 
t1.start()
t2.start()
 
t1.join()
t2.join()
 
print('All threads completed')

这些代码片段展示了如何在Python中进行网络请求、简单爬虫、Socket编程和多线程编程。这些技术在数据科学、网络编程和分布式系统等领域有着广泛的应用。

- 阅读更多 -

Java开发笔记Ⅱ（Jsoup爬虫）

System

2024-08-19

所有,爬虫

以下是一个使用Jsoup库进行网页爬取的简单示例代码，用于从一个指定的网页中提取所有的链接。




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
 
import java.io.IOException;
import java.util.HashSet;
import java.util.Set;
 
public class JsoupCrawlerExample {
    public static void main(String[] args) {
        String url = "http://example.com"; // 替换为你想爬取的网站
        Set<String> links = new HashSet<>();
 
        try {
            Document document = Jsoup.connect(url).get();
            Elements elements = document.select("a[href]"); // 选择所有的a元素
 
            for (Element element : elements) {
                String link = element.attr("href");
                if (link.startsWith("/")) {
                    String rootUrl = url.substring(0, url.length() - 1);
                    link = rootUrl + link;
                }
                links.add(link);
            }
 
            for (String link : links) {
                System.out.println(link);
            }
 
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

这段代码会连接到指定的URL，解析HTML内容，并提取所有的链接。然后，它将打印出这些链接。需要注意的是，这个例子没有处理重复的链接，实际应用中可能需要添加这样的逻辑。此外，实际爬取过程中应遵守网站的robots.txt协议，并尊重版权与隐私政策，不进行侵犯用户隐私的行为。

- 阅读更多 -

python爬虫6—高性能异步爬虫

System

2024-08-19

所有,爬虫




import asyncio
import aiohttp
 
async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()
 
async def main():
    urls = ['http://httpbin.org/delay/1', 'http://httpbin.org/delay/2'] * 100
    async with aiohttp.ClientSession() as session:
        tasks = [asyncio.create_task(fetch(session, url)) for url in urls]
        html_list = await asyncio.gather(*tasks)
        for html in html_list:
            print(len(html))
 
if __name__ == '__main__':
    asyncio.run(main())

这段代码使用了asyncio库和aiohttp库来实现高性能的异步网络请求。fetch函数负责发起对单个URL的请求并获取响应文本。main函数则是程序的入口点，它创建了一个ClientSession对象，并用它来并发地获取多个URL的内容。通过asyncio.gather函数，我们能够并发地执行多个任务，并在所有任务完成后收集结果。这样的爬虫模型在处理大量网络请求时能够显著提高效率。

System

2024-08-19

所有,爬虫




from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
 
# 初始化浏览器驱动
driver_path = '你的webdriver路径'
browser = webdriver.Chrome(executable_path=driver_path)
 
# 打开QQ腾讯文档登录页面
browser.get('https://docs.qq.com/')
 
# 等待登录按钮可点击
login_button = WebDriverWait(browser, 10).until(
    EC.element_to_be_clickable((By.CSS_SELECTOR, '#login-button'))
)
login_button.click()
 
# 输入账号密码并登录
username = browser.find_element(By.CSS_SELECTOR, '#switchAccount > div.login-input-con.account-login-input-con > input[type=text]')
password = browser.find_element(By.CSS_SELECTOR, '#switchAccount > div.login-input-con.password-login-input-con > input[type=password]')
username.send_keys('你的QQ账号')
password.send_keys('你的密码')
password.send_keys(Keys.RETURN)
 
# 等待登录后的页面加载
my_files = WebDriverWait(browser, 10).until(
    EC.presence_of_element_located((By.CSS_SELECTOR, '#my-files'))
)
 
# 执行打卡操作
# 假设你已经有一个打卡的函数，这里只是示例
def clock_in():
    # 定位到打卡按钮并点击
    clock_in_button = browser.find_element(By.CSS_SELECTOR, '#clock-in-button')
    clock_in_button.click()
 
# 执行打卡操作
clock_in()
 
# 关闭浏览器
browser.quit()

这个示例代码展示了如何使用Selenium库来打开QQ腾讯文档的登录页面，输入账号密码登录，并且执行打卡操作。这个过程中使用了等待（WebDriverWait）来确保页面元素加载完成后再进行操作。最后，在操作完成后关闭浏览器。这个代码提供了一个基本框架，可以根据实际情况进行调整和扩展。

- 阅读更多 -

Python | 海表面温度(SST) | 长期趋势和异常分析

System

2024-08-19

所有,python




import numpy as np
import xarray as xr
import matplotlib.pyplot as plt
from scipy import stats
 
# 假设data是一个包含SST数据的xarray.Dataset或xarray.DataArray
# 这里只是示例，实际情况下你需要加载数据
# data = ...
 
# 计算每个站点的持续异常情况
def calculate_persistent_anomalies(data, window):
    running_mean = data.rolling(time=window).mean()
    return data - running_mean
 
# 加载数据并进行异常分析
# 示例数据使用np.random.normal生成
data = np.random.normal(size=(365, 100)).cumsum(axis=0)  # 示例数据，表示每天每个站点的SST
data = xr.DataArray(data, dims=['time', 'station'], coords={'time': np.arange(data.shape[0]), 'station': np.arange(data.shape[1])})
 
# 设置窗口大小，例如10年
window = 365 * 10
 
# 计算持续异常
persistent_anomalies = calculate_persistent_anomalies(data, window)
 
# 找到异常的阈值，这里使用了Z分数法
threshold = stats.zscore(persistent_anomalies).mean() * 2
 
# 识别异常值
anomalies = persistent_anomalies > threshold
 
# 可视化结果
fig, ax = plt.subplots()
ax.imshow(anomalies.T, cmap='viridis', aspect='auto', vmin=0, vmax=1)
ax.set_yticks(np.arange(data.station.size))
ax.set_yticklabels(data.station.values)
ax.set_xticks(np.arange(data.time.size))
ax.set_xticklabels(data.time.dt.strftime('%Y'))
ax.set_xlabel('Year')
ax.set_ylabel('Station')
ax.set_title('Persistent Anomalies')
plt.show()
 
# 注意：这个示例假设数据是平稳的，并且没有提供实际的数据加载方式。
# 在实际应用中，你需要替换数据加载部分，并根据具体情况调整异常分析的细节。

这个代码示例展示了如何计算海表面温度数据的持续异常，并使用Z分数法确定异常的阈值。然后，它将异常与阈值进行比较，并通过图形方式展示结果。这个过程可以作为持续异常分析的一个基础模板。

- 阅读更多 -

基于Python的电影票房爬取与可视化系统的设计与实现

System

2024-08-19

所有,python




import requests
import pandas as pd
from pyecharts.charts import Bar
from pyecharts import options as opts
 
# 获取电影票房数据
def get_movie_boxoffice_data(url):
    response = requests.get(url)
    data = response.json()
    return data['boxoffice']
 
# 保存票房数据到CSV文件
def save_boxoffice_data_to_csv(data, filename):
    df = pd.DataFrame(data).T
    df.to_csv(filename, index=False)
 
# 根据票房数据生成柱状图
def generate_bar_chart(data, title):
    c = (
        Bar()
        .add_xaxis(list(data.keys()))
        .add_yaxis("票房", list(data.values()))
        .set_global_opts(title_opts=opts.TitleOpts(title=title))
    )
    return c
 
# 示例使用
if __name__ == "__main__":
    # 电影票房数据API URL
    url = 'http://api.example.com/boxoffice'
    # 获取数据
    boxoffice_data = get_movie_boxoffice_data(url)
    # 保存到CSV
    save_boxoffice_data_to_csv(boxoffice_data, 'boxoffice_data.csv')
    # 生成柱状图
    chart = generate_bar_chart(boxoffice_data, '电影票房数据柱状图')
    # 渲染图表到文件
    chart.render('boxoffice_chart.html')

这个代码示例展示了如何使用Python进行简单的数据抓取、数据保存和数据可视化。首先，我们定义了一个获取电影票房数据的函数，然后定义了一个将票房数据保存到CSV文件的函数，最后定义了一个根据票房数据生成柱状图的函数。代码中的API URL应该替换为实际的API服务地址。

- 阅读更多 -

Python 内置函数详解逻辑运算

System

2024-08-19

所有,python

Python 提供了多种逻辑运算符，包括 and、or、not。这些运算符可以用于布尔值，也可以用于非布尔值（比如数字、字符串等），但是在非布尔值的情况下，它们的行为可能与你期望的不同。

and：当两边的表达式都为真时，整个表达式才为真。




print(True and True)  # Output: True
print(True and False)  # Output: False
print(False and True)  # Output: False
print(False and False)  # Output: False

or：只要有一个表达式为真，整个表达式就为真。




print(True or True)  # Output: True
print(True or False)  # Output: True
print(False or True)  # Output: True
print(False or False)  # Output: False

not：用于否定一个表达式，如果表达式为真，则否定后为假；如果表达式为假，则否定后为真。




print(not True)  # Output: False
print(not False)  # Output: True

在非布尔值的情况下，这些运算符的行为可以用下面的规则来描述：

and：如果第一个表达式为真（或者可以转换为True的非零值），那么返回第二个表达式的值；否则返回第一个表达式的值。
or：如果第一个表达式为真（或者可以转换为True的非零值），那么返回第一个表达式的值；否则返回第二个表达式的值。
not：如果表达式可以转换为True的非零值，not运算符返回False；否则返回True。




print(1 and 2)  # Output: 2
print(0 and 2)  # Output: 0
print(1 or 2)  # Output: 1
print(0 or 2)  # Output: 2
print(not 0)  # Output: False
print(not 1)  # Output: False
print(not 2)  # Output: False

在上面的例子中，对于 and 和 or，返回的是原始表达式的值，而不是布尔值。not 运算符则是根据表达式的值来返回布尔值。

- 阅读更多 -

python生成随机字符串

System

2024-08-19

所有,python

方法1: 使用random模块生成随机字符串




import random
import string
 
def generate_random_string(length):
    letters = string.ascii_letters  # 包含所有字母的字符串
    random_string = ''.join(random.choice(letters) for _ in range(length))
    return random_string

方法2: 使用secrets模块生成随机字符串（更安全）




import secrets
import string
 
def generate_random_string(length):
    letters = string.ascii_letters
    random_string = ''.join(secrets.choice(letters) for _ in range(length))
    return random_string

方法3: 使用uuid模块生成随机字符串




import uuid
 
def generate_random_string(length):
    random_string = str(uuid.uuid4())[:length]
    return random_string

这三种方法均可以生成指定长度的随机字符串，方法1和方法2生成的字符串只包含字母，而方法3生成的字符串可能包含除字母外的其他字符。

System

2024-08-19

所有,python




from boruta import BorutaPy
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
 
# 加载波士顿房价数据集
boston = load_boston()
X = boston.data
y = boston.target
 
# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
 
# 特征缩放
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
 
# 使用Boruta进行特征选择
boruta = BorutaPy(random_state=1)
boruta.fit(X_train_scaled, y_train)
 
# 打印每个特征的重要性
print(boruta.ranking_)
 
# 可视化特征重要性
# 注意：这一步通常需要额外的可视化代码，例如使用matplotlib绘图，这里我们省略了这部分

这段代码展示了如何使用BorutaPy库进行波士顿房价数据集的特征选择。首先加载数据集，划分为训练集和测试集，然后对训练集进行特征缩放。接着使用Boruta算法进行特征选择，并打印出每个特征的重要性排名。最后，可以通过可视化的方式展示特征的重要性，但这里为了简洁，省略了可视化的代码。

- 阅读更多 -

Python读取wps中的DISPIMG图片格式

System

2024-08-19

所有,python

Python本身不内置直接读取WPS Office文档中的图片的功能。不过，你可以使用第三方库，如olefile来提取存储在WPS表格（.et）文件中的图片。

以下是一个使用olefile库从WPS表格中提取图片的例子：

首先，你需要安装olefile库，可以使用pip安装：




pip install olefile

然后，你可以使用以下代码从WPS表格中提取图片：




import olefile
 
# 替换为你的WPS表格文件路径
file_path = 'example.wps'
 
# 打开WPS文件
ole = olefile.OleFileIO(file_path)
 
# 列出文件中的所有流（streams）
for entry in ole.dump_dict():
    # 寻找图片流
    if entry[0] == '\x01Ole10Native':
        # 提取图片流
        data = ole.openstream(entry[1]).read()
 
        # 这里你可以保存图片或进行其他操作
        # 例如，保存为图片文件
        with open('extracted_image.jpg', 'wb') as f:
            f.write(data)
 
        break
 
# 关闭文件
ole.close()

请注意，上面的代码假设WPS表格中的图片是以OLE对象的形式嵌入的。如果图片以其他方式嵌入（例如作为文本或HTML），则需要不同的处理方式。此外，WPS表格可能会有多个图片，你可能需要编写更复杂的逻辑来遍历和提取所有图片。

- 阅读更多 -