2024-08-27



import requests
from bs4 import BeautifulSoup
import pandas as pd
 
# 定义一个函数来获取网页内容
def get_html(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return "页面无法访问"
    except requests.exceptions.RequestException:
        return "请求出错"
 
# 定义一个函数来解析网页并提取数据
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    data = []
    for row in soup.find('tbody').children:
        if isinstance(row, bs4.element.Tag):
            tds = row('td')
            data.append([tds[0].text, tds[1].text, tds[2].text, tds[3].text])
    return data
 
# 定义一个函数来保存数据到CSV文件
def save_to_csv(data, filename):
    df = pd.DataFrame(data, columns=['序号', '姓名', '年龄', '职业'])
    df.to_csv(filename, index=False, encoding='utf-8')
 
# 定义一个主函数来串联所有功能
def main():
    url = 'https://www.example.com/data'  # 示例网址,实际应用中需替换为目标网址
    html = get_html(url)
    data = parse_html(html)
    save_to_csv(data, 'data.csv')
 
if __name__ == '__main__':
    main()

这段代码首先导入了requests、BeautifulSoup和pandas库,然后定义了获取网页内容、解析网页和保存数据到CSV文件的函数。最后,在main函数中,这些函数被组合起来完成网页内容的抓取、处理和保存。这个简单的例子展示了如何使用Python进行网页爬虫和数据处理的基本步骤。

2024-08-27

Python3 的 queue 模块提供了线程安全的 FIFO 队列,常用的队列包括:

  1. queue.Queue:先进先出的线程安全队列。
  2. queue.LifoQueue:后进先出(LIFO)队列。
  3. queue.PriorityQueue:优先级队列,元素按优先级排序。

下面是使用 queue.Queue 的一个简单示例:




import queue
 
# 创建一个先进先出的线程安全队列
q = queue.Queue()
 
# 向队列中添加元素
q.put('A')
q.put('B')
q.put('C')
 
# 从队列中获取元素
item1 = q.get()
print(item1)  # 输出: 'A'
 
item2 = q.get()
print(item2)  # 输出: 'B'
 
item3 = q.get()
print(item3)  # 输出: 'C'

这个示例创建了一个先进先出的队列,并展示了如何向队列中添加元素和从队列中获取元素。队列中的元素按先进的顺序被取出。

2024-08-27

urllib.parse 模块提供了一些工具来处理 URL。你可以使用 urllib.parse.urlparse() 函数来将 URL 拆分为各个组成部分。

以下是一个简单的例子:




from urllib.parse import urlparse
 
url = 'http://www.example.com:80/path;parameters?query=string#fragment'
 
result = urlparse(url)
 
print('scheme:', result.scheme)
print('netloc:', result.netloc)
print('path:', result.path)
print('params:', result.params)
print('query:', result.query)
print('fragment:', result.fragment)

这段代码会输出 URL 的各个组成部分:




scheme: http
netloc: www.example.com:80
path: /path
params: parameters
query: query=string
fragment: fragment
2024-08-27

由于Masonite是一个Python框架,并且没有特定的扩展机制,我们可以通过编写自定义的Python模块或者使用现有的包来扩展Masonite的功能。以下是一个简单的例子,展示了如何在Masonite中创建一个简单的扩展。

首先,创建一个新的Python包,例如masonite_my_extension,然后在该包中创建一个Python模块,例如my_extension.py




# my_extension.py
def my_custom_function():
    print("这是一个自定义的Masonite扩展函数")

然后,你可以在Masonite应用中使用这个扩展。在任何控制器、模型、命令或者视图中,只需要导入并使用这个函数即可。




# 在某个控制器中使用扩展
from my_extension import my_custom_function
 
class WelcomeController(Controller):
    def show(self):
        my_custom_function()
        return "Hello, Masonite!"

这样,你就创建了一个简单的Masonite扩展,并在应用中使用了它。当然,实际的扩展可能会更复杂,可能需要编写自定义的命令、提供配置文件或者修改Masonite的内核。但基本概念是相同的:编写Python代码,然后在Masonite应用中导入并使用。

2024-08-27



import sqlite3
import pymysql
 
# 连接SQLite数据库
sqlite_connection = sqlite3.connect('example.db')
sqlite_cursor = sqlite_connection.cursor()
 
# 连接MySQL数据库
mysql_connection = pymysql.connect(host='localhost', user='user', password='passwd', db='example')
mysql_cursor = mysql_connection.cursor()
 
# SQLite操作示例
sqlite_cursor.execute("""CREATE TABLE IF NOT EXISTS sqlite_table (id INTEGER PRIMARY KEY, name TEXT)""")
sqlite_connection.commit()
sqlite_cursor.execute("INSERT INTO sqlite_table (name) VALUES (?)", ("Python",))
sqlite_connection.commit()
sqlite_cursor.execute("SELECT * FROM sqlite_table")
print(sqlite_cursor.fetchall())
 
# MySQL操作示例
mysql_cursor.execute("""CREATE TABLE IF NOT EXISTS mysql_table (id INT AUTO_INCREMENT PRIMARY KEY, name VARCHAR(255))""")
mysql_connection.commit()
mysql_cursor.execute("INSERT INTO mysql_table (name) VALUES (%s)", ("Python",))
mysql_connection.commit()
mysql_cursor.execute("SELECT * FROM mysql_table")
print(mysql_cursor.fetchall())
 
# 关闭数据库连接
sqlite_connection.close()
mysql_connection.close()

这段代码展示了如何使用Python进行SQLite和MySQL数据库的连接和基本操作,包括创建表、插入数据和查询数据。代码简洁,注重于展示核心功能。

2024-08-27

Python 3的selectors模块提供了一个通用接口来使用各种I/O多路复用技术,例如select、poll、epoll和kqueue。这使得你可以编写跨平台的代码,而不需要担心每个操作系统特有的底层技术细节。

以下是一个使用selectors模块的基本例子,它使用了Selector类来监听标准输入(stdin)上的读事件,并在有输入时打印出来。




import sys
import selectors
import types
 
# 创建一个Selector对象
sel = selectors.DefaultSelector()
 
def accept(key, mask):
    # 这里是当有可读事件时被调用的回调函数
    print("Event received!")
 
# 注册标准输入文件描述符来监听读事件
sel.register(sys.stdin.fileno(), selectors.EVENT_READ, accept)
 
while True:
    # 等待注册的事件发生,block=True会阻塞等待,None表示无超时
    events = sel.select(block=True)
    for key, mask in events:
        callback = key.data
        if isinstance(callback, types.CoroutineType):
            # 如果回调是一个协程对象,需要通过ensure_future在事件循环中运行它
            selectors.loop.create_task(callback(key, mask))
        else:
            # 否则直接调用回调函数
            callback(key, mask)

这个例子展示了如何使用selectors模块创建一个简单的事件循环,它会在有输入可读时触发事件并调用回调函数。注意,在实际应用中,你可能需要根据实际的网络编程场景来编写更复杂的回调函数和事件处理逻辑。

2024-08-27

tabnanny 是一个Python标准库模块,用于检查Python源文件中不一致的制表符使用。它可以帮助你识别并修复代码中的制表符和空格混合缩进问题。

以下是一个简单的使用 tabnanny 的例子:




import tabnanny
 
# 检查单个文件
tabnanny.check('your_script.py')
 
# 检查目录中的所有.py文件
tabnanny.check_all(r'your_directory', verbose=True)

在使用 tabnanny.checktabnanny.check_all 时,如果发现不一致的缩进,它会抛出一个 Tabnanny.BadChild 异常,并提供有关问题所在的文件和行号的信息。

注意:tabnanny 主要用于检查Python 2代码的缩进问题,在Python 3中,PEP 8推荐使用仅空格来缩进,因此在Python 3代码中使用 tabnanny 可能不会发现实际问题。

2024-08-27

在Python中,可以使用内置的venv模块来创建一个虚拟环境。以下是创建虚拟环境的步骤和示例代码:

  1. 打开命令行工具(终端、命令提示符等)。
  2. 导航到你想要创建虚拟环境的目录。
  3. 运行以下命令来创建虚拟环境:



python3 -m venv myenv

这里myenv是你想要创建的虚拟环境的名字。

  1. 激活虚拟环境:
  • 在Windows上:



myenv\Scripts\activate
  • 在Unix或MacOS上:



source myenv/bin/activate
  1. 虚拟环境被激活后,你会看到命令行提示符前有虚拟环境的名字。

现在你可以在这个虚拟环境中安装包,运行Python脚本,而不会影响到系统级别的Python环境。

要退出虚拟环境,可以使用命令:




deactivate
2024-08-27

tempfile模块提供了创建临时文件和文件夹的功能。在Python中,临时文件和文件夹通常用于临时存储数据,这些数据在程序结束或系统重启后会被删除。

以下是一些使用tempfile模块的常见方法:

  1. 创建临时文件:



import tempfile
 
# 创建临时文件
temp_file = tempfile.NamedTemporaryFile(mode='w+t')
 
# 写入数据到临时文件
temp_file.write("Hello, World!")
 
# 关闭文件
temp_file.close()
  1. 创建临时文件夹:



import tempfile
 
# 创建临时文件夹
with tempfile.TemporaryDirectory() as temp_dir:
    print('临时文件夹的路径:', temp_dir)
    # 在临时文件夹中进行操作
    # ...
  1. 获取临时文件或文件夹的路径:



import tempfile
 
# 获取临时文件路径
temp_path = tempfile.mkstemp()
print('临时文件路径:', temp_path)
 
# 删除临时文件
os.close(temp_path[0])
os.unlink(temp_path[1])
  1. 使用tempfile创建临时文件时,如果需要在文件关闭后保留该文件,可以在创建时指定delete=False



import tempfile
 
# 创建临时文件但不删除
temp_file = tempfile.NamedTemporaryFile(mode='w+t', delete=False)
temp_file.write("Hello, World!")
temp_file.close()
 
# 文件关闭后,文件仍然存在于系统中,可以通过temp_file.name获取文件路径
print('文件路径:', temp_file.name)

以上代码展示了如何使用tempfile模块来创建临时文件、文件夹、获取临时文件路径,以及在文件关闭后保留文件的方法。

2024-08-27

getopt 是 Python 的一个标准库模块,用于解析命令行选项和参数。它可以帮助你在编写脚本时处理命令行输入。

解析命令行参数的基本步骤如下:

  1. 导入 getopt 模块。
  2. 使用 getopt.getopt 方法解析命令行参数。

下面是一个简单的例子,演示如何使用 getopt 解析命令行参数:




import getopt
 
def main():
    try:
        opts, args = getopt.getopt(sys.argv[1:], "ho:", ["help", "output="])
    except getopt.GetoptError as err:
        # 输出错误信息,并显示帮助信息
        print(err)
        usage()
        sys.exit(2)
 
    output = None
    for o, a in opts:
        if o in ("-h", "--help"):
            usage()
            sys.exit()
        elif o in ("-o", "--output"):
            output = a
        else:
            assert False, "unhandled option"
 
    # 处理位置参数
    for arg in args:
        print("位置参数:", arg)
 
    # 处理解析出的选项和参数
    print("输出文件名:", output)
 
if __name__ == "__main__":
    main()

在这个例子中,我们定义了一个 main 函数,它解析命令行参数。-h--help 选项会显示帮助信息并退出程序,-o--output 选项后面需要跟一个参数,指定输出文件名。sys.argv[1:] 是传给脚本的命令行参数列表,不包括脚本名本身。

getopt.getopt 方法的参数:

  • 第一个参数是要解析的命令行参数列表。
  • 第二个参数是短选项的字母,后面跟一个冒号(:)表示该选项需要参数。
  • 第三个参数是长选项名称的列表,可以选择性地带有 =,表示长选项后面需要参数。

getopt.getopt 返回的是两个列表:

  • 第一个列表 opts 包含一个个 (选项, 值) 元组,如果是短选项,值会以空格分隔;如果是长选项,值会在 = 后面。
  • 第二个列表 args 包含所有未被解析的位置参数。

在解析过程中,如果有任何错误(如未知的选项,需要的选项缺失参数),getopt.GetoptError 异常会被抛出,并包含错误信息。