标签 python 下的文章

2024-08-19




import camelot
import pandas as pd
 
# 合并多个PDF文件中的表格，并将结果导出为CSV文件
def merge_pdf_tables_to_csv(pdf_list, output_csv):
    tables = []
    for pdf in pdf_list:
        # 解析PDF文件中的表格
        tables.append(camelot.read_pdf(pdf, pages='1'))
    
    # 合并解析出的表格
    combined_table = camelot.concat(tables)
    
    # 将合并后的表格数据转换为pandas DataFrame
    df = combined_table.df
    
    # 将DataFrame导出为CSV文件
    df.to_csv(output_csv, index=False)
 
# 示例用法
pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
output_csv = 'combined_output.csv'
merge_pdf_tables_to_csv(pdf_files, output_csv)

这段代码定义了一个函数merge_pdf_tables_to_csv，它接受一个PDF文件列表和输出的CSV文件名作为参数。函数使用Camelot库解析PDF文件中的表格，合并它们，并将结果导出为CSV文件。这个过程展示了如何使用Python处理PDF文档中的表格数据，并且是一个很好的数据处理和分析的入门示例。

- 阅读更多 -

时序预测 | KAN+Transformer时间序列预测（Python）

System

2024-08-19

所有,python




import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from pyka import KalmanFilter
from pyka.utils import make_future_data
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.models import Sequential
 
# 数据预处理
def preprocess_data(data, target, scale=True, future=1):
    data = data[target].values
    if scale:
        scaler = MinMaxScaler()
        data = scaler.fit_transform(data.reshape(-1, 1))
    X, y = make_future_data(data, future=future)
    return X, y, scaler
 
# 构建Kalman-Transformer模型
def build_model(input_shape, output_shape, lstm_units, dropout_rate):
    model = Sequential()
    model.add(LSTM(lstm_units, input_shape=input_shape))
    model.add(Dropout(dropout_rate))
    model.add(Dense(output_shape))
    model.compile(optimizer='adam', loss='mse')
    return model
 
# 使用Kalman-Transformer进行预测
def predict_with_kft(model, X, y, scaler, n_preds, n_future):
    X = X[:-n_preds]
    y = y[:-n_preds]
    X_test = X[-n_preds:].reshape(-1, 1)
    y_test = y[-n_preds:].reshape(-1, 1)
    X_test_scaled = scaler.transform(X_test)
    y_pred = model.predict(X_test_scaled)
    y_pred = scaler.inverse_transform(y_pred)
    return y_pred[-n_future:].ravel()
 
# 示例使用
if __name__ == "__main__":
    # 数据和参数设置
    data = pd.read_csv('data.csv', parse_dates=['date'])
    target = 'target'  # 目标列名
    n_past = 50  # 过去多少个数据点
    n_future = 1  # 需要预测未来多少个数据点
    n_preds = 10  # 需要预测的数据点数
    lstm_units = 50  # LSTM单元的数量
    dropout_rate = 0.2  #  dropout率
    batch_size = 1  # 批处理大小
    epochs = 100  # 训练轮数
 
    # 数据预处理
    X, y, scaler = preprocess_data(data, target, scale=True, future=n_future+n_preds)
    input_shape = (n_past, 1)
    output_shape = n_future
 
    # 构建模型
    model = build_model(input_shape, output_shape, lstm_units, dropout_rate)
 
    # 训练模型
    model.fit(X, y, batch_size=batch_size, epochs=epochs, verbose=1)
 
    # 使用模型进行预测
    y_pred = predict_with_kft(model, X, y, scaler, n_preds, n_future)
    print(f"Predicted next {n_future} values:", y_pred)

这段代码首先导入了必要的库，并定义了数据预处理、模型构建和预测的函数。在主程序中，设置了数据和模型的参数，使用预处理的数据构建了模型，并在训练完毕后使用模型进行了预测。这个例子展示了如何使用深度学习模型进行时间序列预测，并提供了一个简单的教学示例。

- 阅读更多 -

Python中Pandas库提供的函数——pd.DataFrame的基本用法

System

2024-08-19

所有,python




import pandas as pd
 
# 创建一个简单的DataFrame
data = {'Column1': [1, 2, 3, 4],
        'Column2': ['a', 'b', 'c', 'd']}
df = pd.DataFrame(data)
 
# 打印DataFrame
print(df)
 
# 查看DataFrame的基本信息
print(df.info())
 
# 查看DataFrame的统计描述信息
print(df.describe())
 
# 将DataFrame转换为列表
list_of_rows = df.values.tolist()
print(list_of_rows)
 
# 将DataFrame的特定列转换为列表
list_of_column1 = df['Column1'].tolist()
print(list_of_column1)
 
# 从DataFrame中选择特定的列
selected_columns = df[['Column1', 'Column2']]
print(selected_columns)
 
# 从DataFrame中选择特定的行
selected_rows = df[df['Column1'] > 2]
print(selected_rows)
 
# 在DataFrame中添加新的列
df['Column3'] = df['Column1'] * 2
print(df)
 
# 删除DataFrame中的列
df = df.drop('Column3', axis=1)
print(df)

这段代码展示了如何使用Pandas库中的DataFrame来创建、查看、操作和转换数据。它包括创建DataFrame、打印、信息统计、转换为列表和数组、选择行列、添加和删除列等基本操作。

- 阅读更多 -

利用 Python 与 GitHub Pages 搭建超美观的个人博客

System

2024-08-19

所有,python

以下是一个简化的解决方案，用于搭建一个基本的静态网站：

安装Python和Git。
创建一个新的GitHub仓库，命名为 用户名.github.io。
安装Jekyll：gem install jekyll bundler。
创建一个新的Jekyll网站：jekyll new my-blog。
进入新创建的网站目录：cd my-blog。
安装依赖：bundle install。
本地预览网站：bundle exec jekyll serve。
在浏览器中访问 http://localhost:4000 进行预览。
将Jekyll生成的静态文件推送到GitHub仓库：
- 将生成的 _site 文件夹内容推送到GitHub仓库。
- 推送命令：git subtree push --prefix _site HEAD master。

现在，你应该可以通过 http://用户名.github.io 访问你的个人博客了。

注意：这只是一个基本的流程，你可以根据自己的需求进行深度定制。

- 阅读更多 -

基于Python+django影片数据爬取与数据分析设计与实现

System

2024-08-19

所有,python




import requests
from bs4 import BeautifulSoup
import pymysql
 
# 连接数据库
conn = pymysql.connect(host='localhost', user='your_username', password='your_password', db='your_database', charset='utf8')
cursor = conn.cursor()
 
# 影片信息爬取函数
def crawl_movie_info(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    movie_info = soup.find('div', class_='info').text.strip().split('\n')
    movie_info = [info.strip() for info in movie_info if info.strip()]
    return movie_info
 
# Django模型调用函数示例
def crawl_and_save_movie_data(movie):
    movie_info = crawl_movie_info(movie.detail_url)
    movie.rating_num = movie_info[1]
    movie.quote = movie_info[-1]
    movie.save()
 
# Django模型调用示例
movies = Movie.objects.all()
for movie in movies:
    crawl_and_save_movie_data(movie)
 
# 关闭数据库连接
cursor.close()
conn.close()

这个代码实例展示了如何在Django框架内部调用一个使用BeautifulSoup进行网页解析的函数来爬取电影信息，并更新Django模型中的数据。这里假设你已经有了一个Django模型Movie，它有rating_num和quote等字段，以及一个表示电影详情页URL的detail_url字段。这个例子演示了如何使用爬虫函数来处理这些数据，并将其保存回Django模型。

System

2024-08-19

所有,python




import matplotlib.pyplot as plt
import cartopy.crs as ccrs
import cartopy.io.shapereader as shpreader
from cartopy.mpl.ticker import LongitudeFormatter, LatitudeFormatter
 
# 设置地图的尺寸和分辨率
fig = plt.figure(figsize=(10, 10))
ax = fig.add_subplot(1, 1, 1, projection=ccrs.PlateCarree())
 
# 读取中国地图的shp文件
china_shp = shpreader.Reader('./maps/china.shp')
 
# 遍历shp文件中的所有记录，并绘制
for geom in china_shp.geometries():
    ax.add_geometries([geom], crs=ccrs.PlateCarree(), facecolor='lightblue', edgecolor='black')
 
# 设置坐标轴的格式
ax.set_xticks(range(-180, 181, 60))
ax.set_yticks(range(-90, 91, 30))
ax.xaxis.set_major_formatter(LongitudeFormatter())
ax.yaxis.set_major_formatter(LatitudeFormatter())
 
# 设置地图的范围
ax.set_xlim(-180, 180)
ax.set_ylim(-90, 90)
ax.set_global()
 
# 显示图例
plt.legend(loc='upper left')
 
# 展示地图
plt.show()

这段代码使用了Cartopy库和Matplotlib库来绘制一个简化版的全国地图。首先创建一个新的Figure和Axes实例，并设置投影为ccrs.PlateCarree()。然后读取中国地图的shp文件，并使用add\_geometries()函数将地图多边形添加到Axes实例中。最后设置坐标轴的格式，限定范围，并展示最终的地图。

System

2024-08-19

所有,python




import pandas as pd
 
# 创建示例DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': ['a', 'b', 'c', 'd', 'e']
})
 
# 使用nlargest和nsmallest函数
# 获取每列中最大的两个值
top2_values_A = df['A'].nlargest(2)
top2_values_B = df['B'].nlargest(2)
 
# 获取每列中最小的两个值
bottom2_values_A = df['A'].nsmallest(2)
bottom2_values_B = df['B'].nsmallest(2)
 
# 手动实现nlargest和nsmallest函数
def manual_nlargest(series, n):
    return series.sort_values(ascending=False).head(n)
 
def manual_nsmallest(series, n):
    return series.sort_values(ascending=True).head(n)
 
# 手动实现的结果应该与使用pandas内置函数的结果一致
assert manual_nlargest(df['A'], 2).equals(top2_values_A)
assert manual_nsmallest(df['A'], 2).equals(bottom2_values_A)
 
print("手动实现的最大值获取成功！")

这段代码首先创建了一个简单的DataFrame，然后使用了pandas的nlargest和nsmallest函数来获取每列中最大和最小的几个值。接着，我们手动实现了这两个函数，并通过断言验证了手动实现的结果与使用内置函数的结果是否一致。这样做可以帮助理解这些函数的工作原理，并且在某些情况下可以作为替代方案，用来提高代码的可读性或者是在无法使用pandas库的环境中。

System

2024-08-19

所有,python

报错信息 "Could not build wheels for llama-cpp-python, which is required to install py" 表示在尝试为 llama-cpp-python 构建 Python 包时失败了。这通常发生在使用 pip 安装一个 Python 包时，如果该包不包含预编译的轮子（wheel files），并且无法自动地从源码构建它们，pip 就会报这个错误。

解决方法：

确保你有一个支持的 Python 版本，llama-cpp-python 可能需要特定版本的 Python。
确保你有 C++ 编译环境和相关的构建工具，如 CMake 或者 make，这些通常用于从源码构建项目。
确保你的系统已经安装了 llama-cpp 的依赖库。
尝试手动安装 llama-cpp-python 依赖的 llama-cpp，确保它们都是最新的，并且是兼容的版本。
如果你有多个 Python 版本，确保使用正确的版本来安装包。
如果以上步骤都不能解决问题，可以尝试从源码安装 llama-cpp-python，可能需要下载源码，然后使用 pip install . 或者 python setup.py install 命令进行安装。

如果你不熟悉 C++ 编译环境和构建工具，可能需要一些时间来解决这些依赖问题。如果你不是必须使用 llama-cpp-python，考虑查找其他可行的 Python 包或者使用方案的替代品。

System

2024-08-19

所有,python




# 使用官方Python运行时作为父镜像
FROM python:3.8-slim
 
# 设置环境变量以避免在Python3中的一些问题
ENV LANG C.UTF-8
 
# 设置工作目录
WORKDIR /app
 
# 将本地的Miniconda安装脚本复制到容器中
COPY miniconda.sh /tmp/miniconda.sh
 
# 赋予执行权限并运行安装脚本
RUN chmod +x /tmp/miniconda.sh && \
    /tmp/miniconda.sh -b -p /opt/conda && \
    rm /tmp/miniconda.sh
 
# 将conda的二进制目录添加到PATH，以便我们可以直接使用conda命令
ENV PATH=/opt/conda/bin:$PATH
 
# 可选：安装一些常用的conda包
# RUN conda install -y numpy pandas scikit-learn
 
# 将当前目录内容复制到工作目录
COPY . /app
 
# 可选：在构建镜像时安装Python依赖
# RUN pip install -r requirements.txt
 
# 设置容器启动时执行的命令
CMD ["python", "app.py"]

这个Dockerfile演示了如何在一个轻量级的Python Docker镜像中集成Miniconda。它首先从官方的Python镜像开始构建，然后安装Miniconda，并清理安装脚本。接着，它设置了工作目录，并复制了应用程序文件。最后，它设置了CMD指令以启动Python应用程序。

- 阅读更多 -

Python----Flask(快速上手，前后端分离模式)

System

2024-08-19

所有,python




from flask import Flask, jsonify
 
app = Flask(__name__)
 
# 假设有一个简单的字典，用于表示一个用户信息
user = {
    'id': 1,
    'name': '张三',
    'email': 'zhangsan@example.com'
}
 
@app.route('/')
def index():
    return 'Hello, World!'
 
@app.route('/api/user/<int:user_id>')
def get_user(user_id):
    # 根据user_id获取用户信息
    # 实际应用中，这里可能需要从数据库或其他存储中获取数据
    if user_id == user['id']:
        return jsonify(user)
    return 'No user found', 404
 
if __name__ == '__main__':
    app.run(debug=True)

这段代码创建了一个简单的Flask应用，包含了前后端分离的概念。/api/user/<int:user_id> 路由模拟了一个API接口，可以根据用户ID获取用户信息。在实际应用中，你需要根据业务逻辑从数据库或其他存储系统中获取用户信息。

- 阅读更多 -