分类后端技术下的文章

2024-08-19




from torchvision.datasets import CIFAR10
from torchvision.transforms import ToTensor
from torch.utils.data import DataLoader
from torchvision.transforms import RandomHorizontalFlip, RandomVerticalFlip, RandomAffine
from torchvision.datasets.utils import download_url
import os
import os.path as osp
import sys
import pickle
import torch
import torchvision
import torchvision.transforms as transforms
import numpy as np
 
# 定义数据集类
class AugmentedCIFAR10(CIFAR10):
    """`CIFAR10` 数据集的扩充版本."""
    
    def __init__(self, root, train=True, transform=None, target_transform=None, download=False):
        super(AugmentedCIFAR10, self).__init__(root, train, transform, target_transform, download)
        self.transform = transforms.Compose([
            RandomHorizontalFlip(),
            RandomVerticalFlip(),
            RandomAffine(degrees=0, translate=(0.1, 0.1)),
            ToTensor()
        ])
 
# 使用示例
data_dir = 'path/to/data'
train_set = AugmentedCIFAR10(data_dir, train=True, download=True)
test_set = AugmentedCIFAR10(data_dir, train=False, download=True)
 
train_loader = DataLoader(train_set, batch_size=64, shuffle=True)
test_loader = DataLoader(test_set, batch_size=64, shuffle=True)
 
# 开始训练或测试循环
for inputs, labels in train_loader:
    # 使用 inputs 和 labels 进行训练
    # ...
    pass

这段代码定义了一个名为AugmentedCIFAR10的扩充版本的CIFAR10数据集类，它在初始化时接收和CIFAR10相同的参数，并使用RandomHorizontalFlip，RandomVerticalFlip和RandomAffine进行数据增强。在使用时，只需传入数据集的路径以及是否进行下载，就可以像使用标准CIFAR10数据集一样使用它，包括创建数据加载器和在训练循环中使用。

- 阅读更多 -

Python docx：在Python中创建和操作Word文档

System

2024-08-19

所有,python




# 导入python-docx库
from docx import Document
 
# 创建一个新的Word文档
doc = Document()
 
# 添加一个标题
doc.add_heading('我的第一个文档标题', 0)
 
# 添加一个段落
doc.add_paragraph('这是我的第一个段落。')
 
# 添加一个图片
doc.add_picture('example.jpg', width=None, height=120)
 
# 添加一个分页符
doc.add_page_break()
 
# 添加一个带有多个级别的列表
doc.add_paragraph('这是一个有多级列表的例子:')
 
# 创建一个多级列表
multi_level_list = [
    ('第一级标题', 0),
    ('第二级标题', 1),
    ('第三级标题', 2),
]
 
# 添加多级列表到文档
for level, (text, level_number) in enumerate(multi_level_list):
    doc.add_paragraph(text, style='List Bullet' if level == 0 else 'List Bullet2')
 
# 保存文档
doc.save('example_document.docx')

这段代码演示了如何使用python-docx库创建一个Word文档，包括添加标题、段落、图片、分页符和多级列表。最后，文档被保存为'example\_document.docx'。

- 阅读更多 -

Python最全的股票数据API接口

System

2024-08-19

所有,python

在Python中，获取股票数据的API接口有很多，但是最常用和最信誉良好的是Tushare和Yahoo Finance。以下是如何使用这两种方法获取股票数据的示例代码。

Tushare接口

首先，你需要在Tushare官网注册并获取一个token。




import tushare as ts
 
# 使用你的token初始化ts对象
ts.set_token('你的token')
pro = ts.pro_api('你的token')
 
# 获取股票数据
df = pro.daily(ts_code='000001.SZ', start_date='20200101', end_date='20201231')
print(df)

Yahoo Finance接口

使用Yahoo Finance接口，你可以直接使用pandas_datareader库。




import pandas_datareader.data as web
 
# 获取股票数据
start = '2020-01-01'
end = '2020-12-31'
df = web.DataReader('000001.SZ', 'yahoo', start, end)
print(df)

请注意，Yahoo Finance接口可能在某些情况下无法正常工作，因为Yahoo Finance的API使用政策可能会变化。此外，Tushare的接口需要注册并获取token，而且可能需要一定的资金才能获取更全面的数据。根据你的需求和预算，选择合适的接口。

- 阅读更多 -

【Python】pip安装包出现timeout的解决办法

System

2024-08-19

所有,python

解释：

pip 安装包时出现 timeout 错误通常意味着尝试连接到 PyPI 或其他指定的包源时，在规定的时间内没有收到响应。这可能是由于网络问题、包源不可用、或者服务器响应缓慢导致的。

解决方法：

检查网络连接：确保你的网络连接正常，并且可以正常访问其他网站。
使用国内镜像源：由于网络问题，你可能需要使用国内的 PyPI 镜像源，如清华大学、阿里云等。可以通过修改 pip 配置来指定镜像。
例如，使用清华大学的镜像源：
```
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
```
增加超时时间：可以通过 --default-timeout 选项来增加 pip 的超时时间。
例如：
```
pip install some-package --default-timeout=100
```
尝试更换网络环境：如果你在公司或学校的网络中，可能需要询问网络管理员是否有任何限制。
临时或永久关闭防火墙和杀毒软件：有时这些软件会阻止 pip 访问网络。
重启网络设备：重启你的路由器或调制解调器可能有助于解决网络问题。

如果以上方法都不能解决问题，可能需要进一步检查你的网络环境或联系你的网络服务提供商获取帮助。

- 阅读更多 -

Python 工具 | pip 基本命令

System

2024-08-19

所有,python




pip 是 Python 包管理工具，用于安装和管理 Python 包。以下是一些常用的 pip 命令：
 
1. 安装包：

pip install packagename




 
2. 卸载包：

pip uninstall packagename




 
3. 升级包：

pip install --upgrade packagename




 
4. 列出已安装的包：

pip list




 
5. 查看特定包的信息：

pip show packagename




 
6. 搜索包：

pip search packagename




 
7. 下载包而不安装：

pip download packagename




 
8. 从本地文件安装包：

pip install /path/to/package/package\_name-x.x.x.whl




或者

pip install /path/to/package/package\_name-x.x.x.tar.gz




 
9. 保存项目依赖到文件：

pip freeze > requirements.txt




 
10. 使用 requirements 文件批量安装依赖：
 ```
 pip install -r requirements.txt
 ```

以上命令提供了 pip 的基本使用方法，涵盖了包管理的基本操作。

System

2024-08-19

所有,python




import requests
import json
import time
 
# 钉钉机器人的Webhook地址
DINGDING_WEBHOOK = 'https://oapi.dingtalk.com/robot/send?access_token=YOUR_ACCESS_TOKEN'
# Ambari的API地址
AMBARI_API = 'http://your-ambari-server/api/v1/clusters/your-cluster-name'
 
# 发送钉钉机器人消息的函数
def send_dingding_message(message):
    headers = {
        'Content-Type': 'application/json',
        'Charset': 'UTF-8'
    }
    data = {
        "msgtype": "text",
        "text": {
            "content": message
        }
    }
    response = requests.post(DINGDING_WEBHOOK, headers=headers, data=json.dumps(data))
    if response.status_code == 200:
        print('消息已发送至钉钉')
    else:
        print('消息发送失败')
 
# 获取Ambari集群状态的函数
def get_ambari_cluster_state():
    response = requests.get(AMBARI_API)
    if response.status_code == 200:
        return response.json()
    else:
        return None
 
# 主函数
def main():
    cluster_state = get_ambari_cluster_state()
    if cluster_state:
        send_dingding_message(json.dumps(cluster_state, indent=2))
    else:
        send_dingding_message("获取Ambari集群状态失败")
 
# 定时执行
if __name__ == '__main__':
    while True:
        main()
        time.sleep(300)  # 每5分钟执行一次

这段代码首先定义了钉钉机器人的Webhook地址和Ambari的API地址。然后定义了发送钉钉消息的函数send_dingding_message和获取集群状态的函数get_ambari_cluster_state。主函数main调用get_ambari_cluster_state获取集群状态，并将其作为消息内容发送到钉钉机器人。最后，在if __name__ == '__main__':块中，代码被设定为定时执行，每5分钟检查一次集群状态并发送消息。

- 阅读更多 -

【python】深入探讨flask是如何预防CSRF攻击的

System

2024-08-19

所有,python

Flask使用CSRF（跨站请求伪造）令牌来防止恶意网站伪造用户的请求。当用户访问Flask应用时，Flask会为每个会话生成一个唯一的CSRF令牌，并将其作为隐藏字段嵌入到表单中。当用户提交表单时，Flask会验证提交的CSRF令牌与存储在用户会话中的令牌是否一致，以此来确认请求是由用户自己的会话发起的，从而防止伪造请求。

以下是一个简单的Flask应用示例，演示了如何集成和使用CSRF保护：




from flask import Flask, render_template, session, request
from wtforms import Form, TextField, BooleanField, HiddenField
from wtforms.csrf.core import CSRF
from wtforms.validators import Required
 
app = Flask(__name__)
app.secret_key = 'your_secret_key'
csrf = CSRF(app)
 
class MyForm(Form):
    name = TextField('Name', validators=[Required()])
    submit = SubmitField('Submit')
 
@app.route('/')
def index():
    if 'csrf_token' not in session:
        session['csrf_token'] = csrf.generate_csrf()
    return render_template('index.html', form=MyForm())
 
@app.route('/submit', methods=['POST'])
def submit():
    form = MyForm(request.form)
    if form.validate():
        return 'Form validated!'
    return 'Form did not validate', 400
 
if __name__ == '__main__':
    app.run(debug=True)

在HTML模板中，CSRF令牌会自动作为隐藏字段嵌入到表单中：




<!-- index.html -->
<form method="post">
    {{ form.csrf_token }}
    {{ form.name.label }} {{ form.name }}
    {{ form.submit() }}
</form>

当用户访问/路径时，会生成一个CSRF令牌并存储在会话中。当用户提交表单到/submit路径时，Flask会检查CSRF令牌的有效性。如果令牌不匹配或者不存在，请求会被拒绝，从而防止了CSRF攻击。

- 阅读更多 -

Python：使用线程池轻松处理多线程

System

2024-08-19

所有,python




import concurrent.futures
 
# 定义一个函数，这个函数将用作线程的任务
def task(n):
    print(f"Thread {n} is running")
    # 模拟耗时操作
    import time
    time.sleep(2)
    return f"Thread {n} finished"
 
# 使用线程池执行任务
def use_thread_pool(num_threads, tasks):
    with concurrent.futures.ThreadPoolExecutor(max_workers=num_threads) as executor:
        future_to_task = {executor.submit(task, task): task for task in tasks}
        for future in concurrent.futures.as_completed(future_to_task):
            task = future_to_task[future]
            try:
                data = future.result()
                print(f"Task {task} returned {data}")
            except Exception as e:
                print(f"Task {task} raised an exception: {e}")
 
# 使用线程池处理10个任务
use_thread_pool(5, range(10))

这段代码定义了一个task函数，这个函数将作为线程任务执行。use_thread_pool函数使用线程池来并发执行这些任务，并打印出任务的开始和结束信息。这里使用了concurrent.futures模块中的ThreadPoolExecutor来创建线程池，这是一个简单而有效的在Python中处理多线程的方法。

- 阅读更多 -

用Python爬取电影数据并可视化分析

System

2024-08-19

所有,python




import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
 
# 获取网页内容
def get_html(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
    except requests.RequestException:
        return None
 
# 解析网页并提取数据
def parse_data(html):
    soup = BeautifulSoup(html, 'lxml')
    data = []
    for item in soup.select('table#content_table tr[id^=item]'):
        rank = item.select_one('td:nth-of-type(1)').text
        movie = item.select_one('td:nth-of-type(2) a').text
        score = item.select_one('td:nth-of-type(3)').text
        comment = item.select_one('td:nth-of-type(4)').text
        data.append([rank, movie, score, comment])
    return data
 
# 保存数据到CSV文件
def save_to_csv(data, filename):
    df = pd.DataFrame(data, columns=['排名', '电影名称', '评分', '评论数'])
    df.to_csv(filename, index=False, encoding='utf-8-sig')
 
# 绘制评分的直方图
def plot_histogram(data):
    scores = [float(row[2]) for row in data if row[2].isdigit()]
    plt.hist(scores, bins=25, color='blue', edgecolor='white')
    plt.xlabel('评分')
    plt.ylabel('数量')
    plt.title('评分直方图')
    plt.show()
 
# 主函数
def main():
    url = 'https://movie.douban.com/chart'
    html = get_html(url)
    data = parse_data(html)
    save_to_csv(data, 'douban_movies.csv')
    plot_histogram(data)
 
if __name__ == '__main__':
    main()

这段代码实现了从豆瓣电影TOP250页面爬取数据的功能，并将数据保存到CSV文件，最后绘制了电影评分的直方图。代码使用了requests库获取网页内容，BeautifulSoup进行网页解析，pandas处理数据，以及matplotlib进行数据可视化。

- 阅读更多 -

python中停止线程的方法

System

2024-08-19

所有,python

在Python中，可以使用threading模块来控制线程。如果你想要停止一个线程，可以通过设置一个标志位来实现线程的优雅退出。以下是一个简单的例子：




import threading
import time
 
def thread_function(name, flag):
    while flag.flag:  # 使用一个标志位来控制循环
        print(f"Thread {name} is running...")
        time.sleep(2)
    print(f"Thread {name} is exiting...")
 
# 创建标志位对象
flag = threading.Event()
flag.set()  # 设置标志位为True，表示线程可以运行
 
# 创建并启动线程
t = threading.Thread(target=thread_function, args=("TestThread", flag))
t.start()
 
# 等待一段时间后停止线程
time.sleep(5)
flag.clear()  # 清除标志位，线程将退出while循环
t.join()  # 等待线程完全退出
print("Thread has been stopped.")

在这个例子中，我们定义了一个thread_function函数，它会在一个循环中运行，并且会检查一个标志位。我们使用threading.Event对象作为标志位，通过调用set()来运行线程，调用clear()来停止线程。当标志位为False时，while循环会退出，线程也随之结束。

- 阅读更多 -