标签 python 下的文章

2024-08-07




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
# 获取页面内容
def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    r = requests.get(url, headers=headers)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text
 
# 解析页面数据
def parse_data(html):
    soup = BeautifulSoup(html, 'html.parser')
    ranks = soup.find_all('td', {'class': 'rank'})
    titles = soup.find_all('td', {'class': 'title'})
    score_cons = soup.find_all('td', {'class': 'score'})
    scores = [score_con.find('em').text for score_con in score_cons]
    rank_dicts = list(zip(ranks, titles, scores))
    df = pd.DataFrame(rank_dicts, columns=['排名', '动画名称', '评分'])
    return df
 
# 主函数
def main():
    url = 'https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765545f6e616d6533336337626439.1'
    html = get_html(url)
    df = parse_data(html)
    print(df)
 
if __name__ == '__main__':
    main()

这段代码首先定义了获取页面内容和解析页面数据的函数。主函数中调用这些函数，实现了简单的数据抓取和解析，并打印了一个包含动画排行信息的DataFrame。这个例子展示了如何使用Python进行网络爬虫，并使用pandas处理数据。

- 阅读更多 -

YOLOv8 Tensorrt Python/C++部署详解

System

2024-08-07

所有,python

YOLOv8 模型可以使用 TensorRT 进行高效部署。以下是一个简化的 Python 示例，展示如何使用 TensorRT 优化 YOLOv8 模型并进行推理：




import tensorrt as trt
import pycuda.driver as cuda
import pycuda.autoinit
 
# 加载 YOLOv8 模型和引擎文件
with open('yolov8.engine', 'rb') as f, trt.Runtime(trt.Logger()) as runtime:
    engine = runtime.deserialize_cuda_engine(f.read())
 
context = engine.create_execution_context()
 
# 假设输入数据已经准备好，并且有输入张量和输出张量
input_tensor = ...  # 准备好的输入数据
output_tensor = ... # 准备好的输出数据
 
# 执行推理
inputs, outputs, bindings = [], [], []
 
# 设置输入和输出
for binding in engine:
    size = trt.volume(context.get_binding_shape(binding)) * engine.max_batch_size
    dtype = trt.nptype(engine.get_binding_dtype(binding))
    
    # 创建 GPU 缓冲区
    host_mem = cuda.pagelocked_empty(size, dtype)
    device_mem = cuda.mem_alloc(host_mem.nbytes)
    
    if engine.binding_is_input(binding):
        # 输入张量处理
        inputs.append(host_mem)
        bindings.append(int(device_mem))
    else:
        # 输出张量处理
        outputs.append(host_mem)
        bindings.append(int(device_mem))
 
# 将输入数据传输到 GPU 缓冲区
cuda.memcpy_htod(bindings[0], input_tensor)
 
# 执行推理
context.execute_v2(bindings=bindings)
 
# 将输出数据从 GPU 传回主机
cuda.memcpy_dtoh(outputs[0], bindings[1])
 
# 处理输出结果
inference_result = ...  # 使用 outputs[0] 中的数据
 
# 释放资源
for binding in engine:
    cuda.mem_free(bindings[binding])
 
context.destroy()
engine.destroy()

这个示例展示了如何加载 TensorRT 引擎文件，创建执行上下文，准备输入和输出数据，执行推理，以及处理输出结果。在实际部署中，你需要替换 yolov8.engine 文件加载、输入数据准备和输出处理等部分为具体的应用逻辑。

- 阅读更多 -

Python中获取时间戳的几种方法

System

2024-08-07

所有,python

在Python中获取时间戳可以使用多种方法，以下是几种常见的方法：

使用time模块的time()函数：




import time
timestamp = time.time()

使用datetime模块的timestamp()方法：




from datetime import datetime
timestamp = datetime.now().timestamp()

使用time模块的mktime()方法：




import time
timestamp = time.mktime(time.localtime())

使用datetime模块的utcnow()方法，然后使用timestamp()方法：




from datetime import datetime
timestamp = datetime.utcnow().timestamp()

以上方法可以获取当前的Unix时间戳，即从1970年1月1日00:00:00 UTC到现在的总秒数。如果需要获取特定时区的时间戳，可以使用pytz库或者datetime模块中的astimezone()方法。

- 阅读更多 -

python Pandas.rank() 排名函数详解

System

2024-08-07

所有,python

Pandas.rank() 是一个在DataFrame或Series中对数据进行排名的函数。它主要有以下几种排名方式：

average：平均排名，如果有相同的值，会根据之前的排名进行加权平均。
min：相同值收到的排名是一样的，但是在这个值之前的排名不会因此而上升。
max：相同值收到的排名是一样的，但是在这个值之后的排名不会因此而下降。
first：按照值在数据中出现的顺序进行排名，相同的值得到相同的排名。

默认情况下，method 参数设置为 'average'。

下面是一个使用 Pandas.rank() 的例子：




import pandas as pd
 
# 创建一个DataFrame
df = pd.DataFrame({
    'A': [1, 2, 2, 3],
    'B': [4, 6, 6, 8]
})
 
# 对列A进行排名，默认使用average方法
df['A_rank'] = df['A'].rank()
 
# 对列B进行排名，使用min方法
df['B_rank_min'] = df['B'].rank(method='min')
 
# 对列B进行排名，使用max方法
df['B_rank_max'] = df['B'].rank(method='max')
 
# 对列B进行排名，使用first方法
df['B_rank_first'] = df['B'].rank(method='first')
 
print(df)

输出结果：




   A  B  A_rank  B_rank_min  B_rank_max  B_rank_first
0  1  4     1.0         1.0         1.0           1.0
1  2  6     2.5         2.0         2.0           2.0
2  2  6     2.5         2.0         2.0           1.0
3  3  8     3.0         3.0         3.0           3.0

在这个例子中，列A的排名是平均排名，而列B的排名是根据其在数据中出现的先后顺序进行的。

System

2024-08-07

所有,python




import pandas as pd
 
# 读取Excel文件
df = pd.read_excel('example.xlsx')
 
# 显示前几行数据
print(df.head())
 
# 查看数据的统计信息
print(df.describe())

这段代码展示了如何使用pandas库中的read_excel()函数来读取一个Excel文件，并打印出文件的前几行和统计信息。这是进行数据分析的一个基本步骤，对于初学者来说，这个例子很有教育意义。

- 阅读更多 -

在Python中进行封装

System

2024-08-07

所有,python

在Python中进行封装，意味着将对象的状态（属性）和行为（方法）封装在类中。这样，对象的状态对外是私有的，只能通过类提供的公共接口进行访问和操作。封装可以提高代码的模块性和可维护性。

以下是一个简单的Python类，它展示了如何进行封装：




class Person:
    def __init__(self, name, age):
        self.__name = name  # 私有属性
        self.__age = age  # 私有属性
 
    def get_name(self):  # 公共方法，用于获取名字
        return self.__name
 
    def get_age(self):  # 公共方法，用于获取年龄
        return self.__age
 
    def set_age(self, age):  # 公共方法，用于设置年龄
        if 0 < age < 120:
            self.__age = age
        else:
            raise ValueError("Age must be between 0 and 120.")
 
# 使用类
person = Person("Alice", 30)
print(person.get_name())  # 输出: Alice
print(person.get_age())  # 输出: 30
 
# 尝试直接访问私有属性会导致错误
# print(person.__name)  # 错误: 'Person' object has no attribute '__name'
 
# 通过公共方法设置年龄
person.set_age(25)
print(person.get_age())  # 输出: 25

在这个例子中，__init__ 方法是构造函数，用于初始化对象的状态。self.__name 和 self.__age 是私有属性，它们不能直接从类的外部访问。相反，我们提供了公共方法 get_name()、get_age() 和 set_age() 来操作这些私有属性。这样，我们实现了封装，同时保护了对象的数据不受无限制的访问。

- 阅读更多 -

Python - Ebooklib 读写 epub 电子书

System

2024-08-07

所有,python




from ebooklib import epub
 
# 创建一个新的Epub eReader对象
book = epub.EpubBook()
 
# 添加一个新的源文件
book.set_identifier("http://example.com/book/123")
 
# 添加一个新的作者
book.set_language("en")
 
# 添加一个新的标题
book.set_title("Example Book")
 
# 添加一个新的章节
chapter = epub.EpubHtml(title="Chapter 1", file_name="chapter1.xhtml", content="<h1>Chapter 1</h1><p>This is the first chapter.</p>")
book.add_item(chapter)
 
# 创建一个流以保存电子书
output = open("example.epub", "wb")
 
# 生成电子书
book.write_book(output)
 
# 关闭流
output.close()

这段代码演示了如何使用Ebooklib库创建一个简单的EPUB电子书。首先，我们创建了一个新的EpubBook对象，然后设置了标识符、语言和标题。接着，我们添加了一个章节，最后将书写到一个文件中。这个例子简单明了地展示了如何使用Ebooklib库进行EPUB文件的创建。

- 阅读更多 -

如何利用Python高效抓取招投标信息？一文解锁自动化采集秘籍

System

2024-08-07

所有,python

要高效地自动化抓取招投标信息，可以使用Python的requests库来发送HTTP请求，以及BeautifulSoup库来解析网页。以下是一个简单的示例，展示如何抓取一个假设的招投标网站。




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
# 设置请求头，模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
# 获取网页内容的函数
def get_content(url):
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        return None
 
# 解析网页并提取招投标信息的函数
def parse_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 假设招投标信息在<div class="item">中
    items = soup.find_all('div', class_='item')
    data = []
    for item in items:
        title = item.find('h3', class_='title').text.strip()
        detail_url = item.find('a')['href']
        # 假设详细链接中包含招投标信息
        detail_html = get_content(detail_url)
        detail_soup = BeautifulSoup(detail_html, 'html.parser')
        # 提取具体的招投标信息，例如公司名称、联系方式等
        company_name = detail_soup.find('div', class_='company-name').text.strip()
        contact = detail_soup.find('div', class_='contact').text.strip()
        data.append({
            'title': title,
            'detail_url': detail_url,
            'company_name': company_name,
            'contact': contact
        })
    return data
 
# 示例URL
url = 'http://www.example.com/investment'
html = get_content(url)
investment_data = parse_content(html)
 
# 将数据保存到CSV文件中
df = pd.DataFrame(investment_data)
df.to_csv('investment_info.csv', index=False)

请注意，由于实际招投标网站可能有不同的反爬策略，如JavaScript动态渲染内容、需要登录验证等，因此实际应用中可能需要进行更复杂的处理，比如使用Selenium等工具来处理JavaScript渲染的内容，或者通过分析接口来处理需要登录验证的内容。

- 阅读更多 -

Python批量提取Word文档表格数据

System

2024-08-07

所有,python




import os
from docx import Document
 
# 定义一个函数来批量提取Word文档中的表格数据
def extract_tables_from_word_docs(word_dir):
    # 获取目录中所有的Word文档
    word_files = [f for f in os.listdir(word_dir) if f.endswith('.docx')]
    for word_file in word_files:
        word_path = os.path.join(word_dir, word_file)
        doc = Document(word_path)
        for table in doc.tables:
            for row in table.rows:
                for cell in row.cells:
                    print(cell.text, end='\t')
                print()  # 换行
        print("-" * 60)  # 分隔线
 
# 使用示例
word_documents_folder = '/path/to/word/documents'  # 替换为Word文档所在的文件夹路径
extract_tables_from_word_docs(word_documents_folder)

这段代码定义了一个函数extract_tables_from_word_docs，它接受一个目录路径作为参数，该目录包含要提取表格数据的Word文档。函数遍历目录中的每个.docx文件，并使用python-docx库提取每个文档中的表格数据。每个单元格的文本被打印出来，然后打印一个分隔线以便可以区分不同的文档和表格。

- 阅读更多 -

深入解析 Python dataclass：类属性与类方法解释

System

2024-08-07

所有,python




from dataclasses import dataclass
 
@dataclass
class MyClass:
    """
    这是一个示例数据类。
    """
    field1: str
    field2: int = 10
 
    def class_method(self):
        """
        这是一个类方法。
        """
        print(f"field1: {self.field1}, field2: {self.field2}")
 
# 使用数据类
my_instance = MyClass("Hello", 20)
my_instance.class_method()

这段代码定义了一个名为MyClass的数据类，它有两个属性field1和field2，其中field2有一个默认值。还定义了一个实例方法class_method，该方法在实例上调用时会打印出field1和field2的值。然后，代码创建了MyClass的一个实例，并调用了class_method方法。

- 阅读更多 -