2024-11-30

Python Selenium 的安装和教程

Selenium 是一款强大的 Web 自动化测试工具，它可以用来模拟浏览器操作、爬取动态数据或进行自动化任务。本文将全面介绍 Selenium 的安装和基本使用，通过代码示例和图解帮助你快速上手。

一、Selenium 的安装

1.1 安装 Selenium 库

首先，你需要安装 selenium 库：

pip install selenium

1.2 下载 WebDriver

Selenium 需要配合浏览器驱动 (WebDriver) 一起使用，不同浏览器对应的驱动如下：

Chrome: 下载地址
Firefox: 下载地址
Edge: 下载地址

下载后将驱动程序添加到系统的环境变量 PATH 中。

二、Selenium 的基本使用

2.1 启动浏览器

示例代码

以下代码演示如何启动 Chrome 浏览器并打开百度主页：

from selenium import webdriver

# 设置 WebDriver 路径
driver_path = "path/to/chromedriver"  # 替换为实际路径
driver = webdriver.Chrome(executable_path=driver_path)

# 打开百度
driver.get("https://www.baidu.com")

# 打印页面标题
print("页面标题:", driver.title)

# 关闭浏览器
driver.quit()

输出示例

页面标题: 百度一下，你就知道

2.2 查找页面元素

Selenium 提供了多种方式查找页面元素：

ID: find_element_by_id
类名: find_element_by_class_name
CSS选择器: find_element_by_css_selector
XPath: find_element_by_xpath

示例代码

from selenium import webdriver

driver = webdriver.Chrome(executable_path="path/to/chromedriver")
driver.get("https://www.baidu.com")

# 查找搜索框并输入文字
search_box = driver.find_element_by_id("kw")
search_box.send_keys("Python Selenium")

# 点击“百度一下”按钮
search_button = driver.find_element_by_id("su")
search_button.click()

# 打印当前页面 URL
print("当前页面 URL:", driver.current_url)

# 关闭浏览器
driver.quit()

2.3 模拟用户操作

示例代码：自动登录示例

以自动登录 GitHub 为例：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

driver = webdriver.Chrome(executable_path="path/to/chromedriver")
driver.get("https://github.com/login")

# 输入用户名和密码
driver.find_element(By.ID, "login_field").send_keys("your_username")
driver.find_element(By.ID, "password").send_keys("your_password")

# 点击登录按钮
driver.find_element(By.NAME, "commit").click()

# 等待加载并打印登录结果
time.sleep(2)
print("登录成功" if "dashboard" in driver.current_url else "登录失败")

driver.quit()

三、常用功能示例

3.1 截屏功能

Selenium 可以截取页面截图：

driver.save_screenshot("screenshot.png")
print("截图已保存")

3.2 动态等待

在加载动态页面时，可以使用显式或隐式等待：

隐式等待

driver.implicitly_wait(10)  # 等待 10 秒

显式等待

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, "some_id"))
)

3.3 滚动页面

滚动到页面底部：

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

3.4 处理弹窗

示例代码：关闭弹窗

alert = driver.switch_to.alert
print("弹窗内容:", alert.text)
alert.accept()  # 点击“确定”

3.5 爬取动态网页数据

Selenium 可以用于爬取 JavaScript 动态渲染的内容。例如：

driver.get("https://quotes.toscrape.com/js/")
quotes = driver.find_elements(By.CLASS_NAME, "quote")
for quote in quotes:
    print(quote.text)

四、完整示例：自动化搜索并截图

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 设置 WebDriver
driver = webdriver.Chrome(executable_path="path/to/chromedriver")

# 打开百度并搜索
driver.get("https://www.baidu.com")
search_box = driver.find_element(By.ID, "kw")
search_box.send_keys("Python Selenium 教程")
search_button = driver.find_element(By.ID, "su")
search_button.click()

# 等待加载完成并截图
time.sleep(2)
driver.save_screenshot("search_results.png")
print("搜索结果已截图保存")

# 关闭浏览器
driver.quit()

五、注意事项

浏览器版本匹配：确保 WebDriver 与浏览器的版本匹配，否则会报错。
反爬策略：很多网站对 Selenium 的行为进行检测，可以通过添加请求头或使用无头模式规避。
资源管理：使用完浏览器后务必调用 driver.quit() 释放资源。

六、总结

Selenium 是一个功能强大的工具，在 Web 自动化测试和动态数据抓取中有广泛应用。本文通过代码示例详细讲解了 Selenium 的基本用法及常见功能，希望能帮助你更高效地完成自动化任务。

如果想深入学习 Selenium，可以尝试结合 无头浏览器模式 或 集成 pytest 框架 实现更复杂的应用！

- 阅读更多 -

Python神器：psutil库使用详解

System

2024-11-30

所有,python

Python神器：psutil库使用详解

psutil 是 Python 中一个功能强大的第三方库，用于获取系统的运行状况和硬件信息，如 CPU、内存、磁盘、网络等资源的使用情况。这使得它在系统监控、资源管理和性能调试等场景中大有用途。

本文将全面介绍 psutil 的使用，配以详细代码示例和图解，助你快速上手这一神器！

一、psutil 的安装与基本概念

1.1 安装

在命令行中运行以下命令安装 psutil：

pip install psutil

1.2 psutil 能做什么？

CPU 信息：获取 CPU 使用率、逻辑/物理核心数等。
内存信息：包括总内存、可用内存、内存占用率等。
磁盘信息：获取磁盘分区、使用情况和 IO 信息。
网络信息：查看网络接口、连接状态和流量统计。
进程管理：列举和管理系统进程。

二、获取系统资源信息

2.1 获取 CPU 信息

示例代码

import psutil

# CPU 核心数
print(f"物理核心数: {psutil.cpu_count(logical=False)}")
print(f"逻辑核心数: {psutil.cpu_count(logical=True)}")

# CPU 使用率
print(f"CPU 使用率: {psutil.cpu_percent(interval=1)}%")

# 每个核心的使用率
print(f"每个核心的使用率: {psutil.cpu_percent(interval=1, percpu=True)}")

输出示例

物理核心数: 4
逻辑核心数: 8
CPU 使用率: 12.3%
每个核心的使用率: [5.3, 10.1, 20.7, 12.9, 4.8, 7.5, 15.2, 10.6]

图解

2.2 获取内存信息

示例代码

# 获取内存使用情况
memory_info = psutil.virtual_memory()
print(f"总内存: {memory_info.total / 1024**3:.2f} GB")
print(f"已用内存: {memory_info.used / 1024**3:.2f} GB")
print(f"可用内存: {memory_info.available / 1024**3:.2f} GB")
print(f"内存使用率: {memory_info.percent}%")

输出示例

总内存: 16.00 GB
已用内存: 8.24 GB
可用内存: 7.76 GB
内存使用率: 51.5%

图解

一个简单的内存使用率饼图可以清晰展示当前内存的占用情况：

2.3 获取磁盘信息

示例代码

# 获取磁盘分区
partitions = psutil.disk_partitions()
for partition in partitions:
    print(f"分区设备: {partition.device}")
    print(f"挂载点: {partition.mountpoint}")
    print(f"文件系统类型: {partition.fstype}")

# 获取磁盘使用情况
disk_usage = psutil.disk_usage('/')
print(f"磁盘总容量: {disk_usage.total / 1024**3:.2f} GB")
print(f"已用空间: {disk_usage.used / 1024**3:.2f} GB")
print(f"可用空间: {disk_usage.free / 1024**3:.2f} GB")
print(f"磁盘使用率: {disk_usage.percent}%")

输出示例

分区设备: /dev/sda1
挂载点: /
文件系统类型: ext4
磁盘总容量: 512.00 GB
已用空间: 120.23 GB
可用空间: 391.77 GB
磁盘使用率: 23.5%

2.4 获取网络信息

示例代码

# 获取网络接口信息
net_io = psutil.net_io_counters()
print(f"已发送数据: {net_io.bytes_sent / 1024**2:.2f} MB")
print(f"已接收数据: {net_io.bytes_recv / 1024**2:.2f} MB")

# 获取网络连接信息
connections = psutil.net_connections(kind='inet')
for conn in connections[:5]:  # 仅展示前 5 条连接
    print(f"本地地址: {conn.laddr}, 远程地址: {conn.raddr}, 状态: {conn.status}")

输出示例

已发送数据: 50.32 MB
已接收数据: 120.89 MB
本地地址: 127.0.0.1:8080, 远程地址: None, 状态: LISTEN
本地地址: 192.168.1.5:52415, 远程地址: 192.168.1.1:80, 状态: ESTABLISHED

三、进程管理

3.1 列举所有进程

示例代码

# 获取所有进程
for proc in psutil.process_iter(['pid', 'name', 'cpu_percent']):
    print(f"PID: {proc.info['pid']}, 名称: {proc.info['name']}, CPU 使用率: {proc.info['cpu_percent']}%")

示例输出

PID: 1, 名称: systemd, CPU 使用率: 0.0%
PID: 1234, 名称: python3, CPU 使用率: 10.3%
PID: 5678, 名称: chrome, CPU 使用率: 5.2%

3.2 操作进程

示例代码

# 获取某个进程的信息
pid = 1234  # 替换为实际 PID
try:
    process = psutil.Process(pid)
    print(f"进程名: {process.name()}")
    print(f"进程状态: {process.status()}")
    print(f"内存使用: {process.memory_info().rss / 1024**2:.2f} MB")
    print(f"CPU 使用率: {process.cpu_percent(interval=1)}%")
    
    # 杀死进程
    process.terminate()
    print(f"进程 {pid} 已终止")
except psutil.NoSuchProcess:
    print(f"进程 {pid} 不存在")

四、实时监控示例

一个实时监控系统资源的 Python 程序：

import psutil
import time

while True:
    cpu = psutil.cpu_percent(interval=1)
    memory = psutil.virtual_memory().percent
    disk = psutil.disk_usage('/').percent
    print(f"CPU: {cpu}%, 内存: {memory}%, 磁盘: {disk}%")
    time.sleep(1)

运行后可以实时查看系统的资源占用情况。

五、总结

psutil 是一个功能全面且易用的 Python 库，适用于多种场景，包括：

开发系统监控工具；
实现资源管理与性能调试；
构建服务器性能监控脚本。

通过本文的详细教程，相信你已经掌握了 psutil 的核心功能，并能灵活运用于实际项目中！

- 阅读更多 -

Python——多线程的共享变量用法

System

2024-11-30

所有,python

Python——多线程的共享变量用法

在多线程编程中，共享变量 是一个重要但容易出错的概念。多个线程访问或修改同一个变量时，可能会引发竞态条件（race condition），导致数据错误或不可预测的行为。本教程详细介绍多线程中共享变量的使用方法，并结合代码示例与图解，帮助你更好地理解和避免常见问题。

一、什么是共享变量？

共享变量是指多个线程能够同时访问的变量。例如，多个线程对同一个全局变量或同一个对象的属性进行读写操作。

示例：共享变量引发竞态条件

import threading

# 初始化共享变量
shared_counter = 0

def increment():
    global shared_counter
    for _ in range(100000):
        shared_counter += 1

# 创建线程
thread1 = threading.Thread(target=increment)
thread2 = threading.Thread(target=increment)

# 启动线程
thread1.start()
thread2.start()

# 等待线程结束
thread1.join()
thread2.join()

print(f"Final counter value: {shared_counter}")

输出结果：
最终的 shared_counter 可能不会是预期的 200,000，原因是多个线程在同时修改变量时，操作并不是原子的，导致了竞态条件。

二、解决共享变量问题的方法

Python 提供了几种机制来安全地操作共享变量。

2.1 使用锁（Lock）

锁（threading.Lock）是最常用的方式，用于防止多个线程同时访问共享资源。

示例：使用锁解决竞态条件

import threading

shared_counter = 0
lock = threading.Lock()

def increment_with_lock():
    global shared_counter
    for _ in range(100000):
        with lock:  # 使用锁保护共享变量
            shared_counter += 1

# 创建线程
thread1 = threading.Thread(target=increment_with_lock)
thread2 = threading.Thread(target=increment_with_lock)

# 启动线程
thread1.start()
thread2.start()

# 等待线程结束
thread1.join()
thread2.join()

print(f"Final counter value: {shared_counter}")

输出结果：
无论运行多少次，shared_counter 的值始终是 200,000。

图解：

未加锁：
- 线程 1 和线程 2 可能同时读取相同的值，导致操作冲突。
加锁：
- 线程 1 获取锁后操作共享变量，线程 2 必须等待锁释放。

2.2 使用条件变量（Condition）

条件变量是高级的同步机制，可以让线程在满足特定条件时继续执行。

示例：生产者-消费者模型

import threading
import time
from queue import Queue

queue = Queue(maxsize=5)
condition = threading.Condition()

def producer():
    for i in range(10):
        with condition:
            while queue.full():
                condition.wait()  # 等待队列有空位
            queue.put(i)
            print(f"Produced: {i}")
            condition.notify_all()  # 通知消费者

def consumer():
    for _ in range(10):
        with condition:
            while queue.empty():
                condition.wait()  # 等待队列有数据
            item = queue.get()
            print(f"Consumed: {item}")
            condition.notify_all()  # 通知生产者

# 创建线程
producer_thread = threading.Thread(target=producer)
consumer_thread = threading.Thread(target=consumer)

# 启动线程
producer_thread.start()
consumer_thread.start()

# 等待线程结束
producer_thread.join()
consumer_thread.join()

输出结果：
生产者和消费者交替运行，保证了队列的安全操作。

2.3 使用线程安全的数据结构

Python 的 queue 模块提供了线程安全的数据结构（如 Queue、LifoQueue 和 PriorityQueue），无需手动加锁。

示例：使用线程安全的队列

from queue import Queue
import threading

queue = Queue()

def producer():
    for i in range(5):
        queue.put(i)
        print(f"Produced: {i}")

def consumer():
    while not queue.empty():
        item = queue.get()
        print(f"Consumed: {item}")

# 创建线程
producer_thread = threading.Thread(target=producer)
consumer_thread = threading.Thread(target=consumer)

# 启动线程
producer_thread.start()
producer_thread.join()  # 等生产者完成后再启动消费者
consumer_thread.start()
consumer_thread.join()

三、避免死锁

在多线程中使用锁时，需要注意死锁问题。死锁通常发生在多个线程同时等待对方释放锁的情况下。

示例：避免死锁的技巧

使用 threading.Lock 或 threading.RLock 的上下文管理器，确保锁总是被正确释放。

改进的死锁避免代码

import threading

lock1 = threading.Lock()
lock2 = threading.Lock()

def thread1_task():
    with lock1:
        print("Thread 1 acquired lock1")
        with lock2:
            print("Thread 1 acquired lock2")

def thread2_task():
    with lock2:
        print("Thread 2 acquired lock2")
        with lock1:
            print("Thread 2 acquired lock1")

t1 = threading.Thread(target=thread1_task)
t2 = threading.Thread(target=thread2_task)

t1.start()
t2.start()

t1.join()
t2.join()

通过控制加锁顺序或使用 RLock 可有效避免死锁。

四、图解多线程共享变量的流程

示例场景：两个线程共享一个计数器

线程 1 和线程 2 都尝试增加计数器。
加锁后，计数器修改变得有序且安全。

未加锁：       加锁：
线程 1 ---> 读取共享变量        线程 1 ---> 加锁
线程 2 ---> 读取共享变量        线程 2 ---> 等待锁释放
线程 1 ---> 修改变量            线程 1 ---> 修改变量
线程 2 ---> 修改变量            线程 1 ---> 释放锁

五、总结与最佳实践

始终保护共享变量：
- 使用锁（Lock 或 RLock）保护共享变量。
- 对复杂同步问题，考虑使用条件变量（Condition）或线程安全的数据结构。
尽量避免手动加锁：
- 使用高层工具如 queue.Queue 来自动管理线程安全。
小心死锁：
- 控制锁的顺序，避免多个锁之间的循环等待。
- 尽量使用上下文管理器来管理锁。
线程池的使用：
- 对于较大的并发任务，建议使用 concurrent.futures.ThreadPoolExecutor 来简化线程管理。

通过本文的讲解和示例代码，相信你已经掌握了在 Python 中多线程共享变量的安全使用方法。希望你能够灵活运用这些技巧，编写高效、稳定的多线程程序！

- 阅读更多 -

Python 类与对象的详细用法

System

2024-11-30

所有,python

Python 类与对象的详细用法

Python 是一种面向对象编程语言，其中类和对象是核心概念。通过使用类与对象，我们可以实现代码的高效复用、逻辑的清晰结构化以及功能模块化。本教程将详细介绍 Python 中类与对象的概念、使用方法及示例，帮助你更容易学习和理解。

一、什么是类和对象？

类：类是一个蓝图，用于定义对象的属性和行为。它定义了对象的结构和方法。
对象：对象是类的实例。类是抽象的，而对象是具体的。

举例：

class Car:
    # 类是一个模板，描述车的属性和行为
    pass

# 实例化类，生成对象
my_car = Car()

二、定义类和创建对象

2.1 定义类

使用 class 关键字定义类。类通常包含以下部分：

属性（变量）：描述对象的特征。
方法（函数）：定义对象的行为。

class Dog:
    # 初始化方法，定义属性
    def __init__(self, name, breed):
        self.name = name  # 属性1
        self.breed = breed  # 属性2

    # 定义方法
    def bark(self):
        print(f"{self.name} is barking!")

2.2 创建对象

通过调用类名并传入参数来创建对象。

# 创建对象
dog1 = Dog("Buddy", "Golden Retriever")
dog2 = Dog("Max", "Beagle")

# 调用对象的方法
dog1.bark()  # 输出：Buddy is barking!
dog2.bark()  # 输出：Max is barking!

三、类的详细用法

3.1 类的属性

类变量和实例变量

类变量：属于类，所有对象共享。
实例变量：属于实例，每个对象独有。

class Circle:
    pi = 3.14  # 类变量

    def __init__(self, radius):
        self.radius = radius  # 实例变量

# 访问类变量和实例变量
c1 = Circle(5)
c2 = Circle(10)

print(Circle.pi)  # 3.14，访问类变量
print(c1.radius)  # 5，访问实例变量
print(c2.radius)  # 10

3.2 类的方法

普通方法

普通方法的第一个参数是 self，用于表示对象本身。

class Rectangle:
    def __init__(self, width, height):
        self.width = width
        self.height = height

    def area(self):
        return self.width * self.height

# 创建对象并调用方法
rect = Rectangle(5, 10)
print(rect.area())  # 50

类方法

类方法使用 @classmethod 装饰器，第一个参数是 cls，表示类本身。

class MyClass:
    count = 0

    @classmethod
    def increment_count(cls):
        cls.count += 1

MyClass.increment_count()
print(MyClass.count)  # 1

静态方法

静态方法使用 @staticmethod 装饰器，不需要 self 或 cls 参数。

class Math:
    @staticmethod
    def add(x, y):
        return x + y

print(Math.add(3, 5))  # 8

四、继承与多态

4.1 继承

一个类可以继承另一个类，子类会获得父类的所有属性和方法。

class Animal:
    def __init__(self, name):
        self.name = name

    def speak(self):
        print(f"{self.name} makes a sound.")

class Cat(Animal):
    def speak(self):
        print(f"{self.name} meows.")

# 创建对象
animal = Animal("Generic Animal")
animal.speak()  # Generic Animal makes a sound.

cat = Cat("Kitty")
cat.speak()  # Kitty meows.

4.2 多态

通过继承可以实现多态，即同一方法在不同对象上有不同的行为。

def animal_sound(animal):
    animal.speak()

dog = Dog("Buddy", "Golden Retriever")
cat = Cat("Kitty")
animal_sound(dog)  # Buddy is barking!
animal_sound(cat)  # Kitty meows.

五、特殊方法与操作符重载

5.1 特殊方法

特殊方法以双下划线开头和结尾（如 __init__、__str__）。

class Book:
    def __init__(self, title, author):
        self.title = title
        self.author = author

    def __str__(self):
        return f"'{self.title}' by {self.author}"

book = Book("1984", "George Orwell")
print(book)  # '1984' by George Orwell

5.2 操作符重载

可以重载操作符以支持自定义的对象运算。

class Vector:
    def __init__(self, x, y):
        self.x = x
        self.y = y

    def __add__(self, other):
        return Vector(self.x + other.x, self.y + other.y)

    def __str__(self):
        return f"Vector({self.x}, {self.y})"

v1 = Vector(1, 2)
v2 = Vector(3, 4)
print(v1 + v2)  # Vector(4, 6)

六、类的封装、继承与多态示意图

以下示意图展示了类的三大特性：

封装：通过访问控制隐藏类内部实现。
继承：子类可以复用父类代码。
多态：同一方法在不同对象上的行为不同。

Animal (父类)
└── Dog (子类)
    ├── 属性：name, breed
    ├── 方法：bark()

七、完整案例：银行账户管理系统

class BankAccount:
    def __init__(self, owner, balance=0):
        self.owner = owner
        self.balance = balance

    def deposit(self, amount):
        self.balance += amount
        print(f"Deposited ${amount}. New balance: ${self.balance}")

    def withdraw(self, amount):
        if amount > self.balance:
            print("Insufficient funds.")
        else:
            self.balance -= amount
            print(f"Withdrew ${amount}. New balance: ${self.balance}")

# 创建账户并操作
account = BankAccount("Alice", 1000)
account.deposit(500)
account.withdraw(300)
account.withdraw(1500)

八、总结

通过本文的学习，我们掌握了 Python 中类与对象的以下知识点：

定义类和创建对象。
使用类变量、实例变量和方法。
实现继承与多态。
特殊方法和操作符重载的使用。

理解类与对象的概念和用法将大大提高代码复用性和可维护性。祝你学习愉快！

- 阅读更多 -

Python天气数据分析预测与可视化教学

System

2024-11-30

所有,python

Python天气数据分析预测与可视化教学

天气数据分析和预测在多个领域（如农业、交通、能源）中具有广泛应用。本文将通过 Python 展示如何获取天气数据、分析和预测，并利用可视化技术进行呈现。

一、获取天气数据

1.1 使用 API 获取天气数据

大多数天气服务提供商（如 OpenWeatherMap）提供免费的 API 用于获取天气数据。

获取天气数据的步骤：

注册获取 API 密钥。
使用 requests 库发送 API 请求。
解析 JSON 数据。

示例代码：

import requests
import json

# 设置 API 密钥和 URL
API_KEY = "your_api_key"
CITY = "Beijing"
URL = f"http://api.openweathermap.org/data/2.5/weather?q={CITY}&appid={API_KEY}"

# 发送请求
response = requests.get(URL)
data = response.json()

# 打印天气信息
print(f"城市: {data['name']}")
print(f"温度: {data['main']['temp']} K")
print(f"天气: {data['weather'][0]['description']}")

二、天气数据分析

2.1 清洗和准备数据

数据通常存储在 CSV 文件中，需要对其进行清洗和格式化。

示例：

import pandas as pd

# 加载数据
df = pd.read_csv("weather_data.csv")

# 检查数据
print(df.head())

# 处理缺失值
df = df.dropna()

# 转换日期格式
df['date'] = pd.to_datetime(df['date'])

2.2 统计分析

通过统计方法分析温度、湿度等天气指标的变化趋势。

# 计算基本统计量
print(df['temperature'].describe())

# 按月统计平均温度
monthly_avg_temp = df.groupby(df['date'].dt.month)['temperature'].mean()
print(monthly_avg_temp)

三、天气预测

3.1 时间序列建模

使用 ARIMA 模型预测未来天气数据。

安装必要的库

pip install statsmodels

示例代码：

from statsmodels.tsa.arima_model import ARIMA
import matplotlib.pyplot as plt

# 准备时间序列数据
time_series = df.set_index('date')['temperature']

# 拆分训练集和测试集
train = time_series[:int(0.8 * len(time_series))]
test = time_series[int(0.8 * len(time_series)):]

# 构建 ARIMA 模型
model = ARIMA(train, order=(5, 1, 0))
model_fit = model.fit(disp=False)

# 预测
forecast = model_fit.forecast(steps=len(test))[0]

# 绘图
plt.plot(test, label='Actual')
plt.plot(test.index, forecast, label='Forecast')
plt.legend()
plt.show()

四、天气数据可视化

4.1 绘制折线图

展示温度、湿度的时间变化趋势。

import matplotlib.pyplot as plt

# 绘制折线图
plt.figure(figsize=(10, 5))
plt.plot(df['date'], df['temperature'], label='Temperature', color='blue')
plt.xlabel('Date')
plt.ylabel('Temperature (°C)')
plt.title('Temperature Over Time')
plt.legend()
plt.show()

4.2 热力图

展示一周内不同时间段的平均温度。

import seaborn as sns

# 生成数据
df['day_of_week'] = df['date'].dt.day_name()
df['hour'] = df['date'].dt.hour
heatmap_data = df.pivot_table(values='temperature', index='day_of_week', columns='hour', aggfunc='mean')

# 绘制热力图
plt.figure(figsize=(12, 6))
sns.heatmap(heatmap_data, cmap='coolwarm', annot=True)
plt.title('Average Temperature Heatmap')
plt.show()

4.3 地图可视化

使用 Folium 显示不同城市的天气信息。

import folium

# 创建地图
m = folium.Map(location=[39.9042, 116.4074], zoom_start=10)

# 添加天气标记
folium.Marker([39.9042, 116.4074], popup="Beijing: Sunny 25°C").add_to(m)
folium.Marker([31.2304, 121.4737], popup="Shanghai: Cloudy 22°C").add_to(m)

# 显示地图
m.save("weather_map.html")

五、完整流程案例：每日天气报告

综合代码：

import requests
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 获取天气数据
API_KEY = "your_api_key"
CITY = "Beijing"
URL = f"http://api.openweathermap.org/data/2.5/forecast?q={CITY}&appid={API_KEY}&units=metric"
response = requests.get(URL)
data = response.json()

# 提取关键数据
forecast = []
for item in data['list']:
    forecast.append({
        "date": item['dt_txt'],
        "temperature": item['main']['temp'],
        "humidity": item['main']['humidity'],
        "weather": item['weather'][0]['description']
    })

# 转为 DataFrame
df = pd.DataFrame(forecast)
df['date'] = pd.to_datetime(df['date'])

# 绘制温度趋势图
plt.figure(figsize=(10, 5))
plt.plot(df['date'], df['temperature'], label='Temperature', color='red')
plt.xlabel('Date')
plt.ylabel('Temperature (°C)')
plt.title('Temperature Forecast')
plt.legend()
plt.show()

# 绘制湿度热力图
df['day_of_week'] = df['date'].dt.day_name()
df['hour'] = df['date'].dt.hour
heatmap_data = df.pivot_table(values='humidity', index='day_of_week', columns='hour', aggfunc='mean')

plt.figure(figsize=(12, 6))
sns.heatmap(heatmap_data, cmap='Blues', annot=True)
plt.title('Humidity Heatmap')
plt.show()

六、总结

通过本文，你学会了如何：

使用 API 获取天气数据。
对天气数据进行清洗、分析和建模。
使用多种可视化技术展示结果。

使用 Python 的强大功能，可以轻松处理和分析天气数据，为实际应用提供有力支持！

- 阅读更多 -

Python——Spark使用教程

System

2024-11-30

所有,python

Python——Spark使用教程

Apache Spark 是一种强大的分布式数据处理框架，结合 Python 可以高效处理大规模数据。本文将详细介绍如何在 Python 中使用 Spark，包括安装、基本操作和代码示例，帮助你快速入门。

一、Spark 简介

Apache Spark 是一个开源的大数据处理框架，主要特点包括：

高速计算：通过内存计算提升速度。
多语言支持：支持 Python、Java、Scala 和 R。
模块化：包含 Spark SQL、Spark Streaming、MLlib 和 GraphX 等组件。

PySpark 是 Spark 的 Python 接口，使得 Python 程序员可以利用 Spark 的强大功能。

二、安装与环境配置

2.1 安装 PySpark

安装 PySpark 的推荐方法是使用 pip：

pip install pyspark

2.2 配置 Java 和 Spark 环境

安装 Java：Spark 依赖 Java，确保 Java 已安装。检查方法：
```
java -version
```
下载 Spark：
- 到 Spark 官网下载预编译版。
- 解压后设置环境变量，例如：
```
export SPARK_HOME=/path/to/spark
export PATH=$SPARK_HOME/bin:$PATH
```

2.3 验证安装

启动 PySpark Shell 验证安装是否成功：

pyspark

若显示 Spark 控制台，即表示安装成功。

三、PySpark 基本操作

3.1 初始化 SparkSession

SparkSession 是与 Spark 交互的入口：

from pyspark.sql import SparkSession

# 初始化 SparkSession
spark = SparkSession.builder \
    .appName("PySpark Example") \
    .getOrCreate()

3.2 读取数据

支持多种格式（CSV、JSON、Parquet 等）：

# 读取 CSV 文件
data = spark.read.csv("example.csv", header=True, inferSchema=True)

# 查看数据
data.show()

3.3 RDD 操作

RDD（弹性分布式数据集）是 Spark 的核心：

# 创建 RDD
rdd = spark.sparkContext.parallelize([1, 2, 3, 4, 5])

# 转换操作（map）
rdd_squared = rdd.map(lambda x: x ** 2)

# 行动操作（collect）
print(rdd_squared.collect())

四、数据分析示例：使用 Spark SQL

4.1 加载数据并创建临时表

# 加载 JSON 数据
data = spark.read.json("people.json")

# 创建临时表
data.createOrReplaceTempView("people")

4.2 使用 SQL 查询

# 使用 SQL 查询
result = spark.sql("SELECT name, age FROM people WHERE age > 30")
result.show()

五、Spark Streaming 示例

Spark Streaming 用于实时数据处理，以下是处理模拟数据流的示例：

from pyspark.streaming import StreamingContext

# 创建 StreamingContext
ssc = StreamingContext(spark.sparkContext, batchDuration=1)

# 模拟数据流（本地文本文件）
lines = ssc.textFileStream("file:///path/to/directory")

# 统计每行单词数
word_counts = lines.flatMap(lambda line: line.split(" ")) \
                   .map(lambda word: (word, 1)) \
                   .reduceByKey(lambda a, b: a + b)

word_counts.pprint()

# 启动流处理
ssc.start()
ssc.awaitTermination()

六、机器学习示例（MLlib）

使用 Spark 的 MLlib 进行机器学习任务。

6.1 逻辑回归示例

from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import VectorAssembler

# 加载数据
data = spark.read.csv("data.csv", header=True, inferSchema=True)

# 特征工程
assembler = VectorAssembler(inputCols=["feature1", "feature2"], outputCol="features")
data = assembler.transform(data)

# 训练逻辑回归模型
lr = LogisticRegression(featuresCol="features", labelCol="label")
model = lr.fit(data)

# 预测
predictions = model.transform(data)
predictions.show()

七、图解 Spark 工作原理

Driver 和 Executor：
- Driver：主节点，负责任务调度。
- Executor：执行节点，负责计算任务。
DAG（有向无环图）：
- Spark 将任务分解为多个阶段，每阶段构成 DAG，任务调度基于此。
内存计算：
- Spark 将数据缓存在内存中，减少 I/O 操作，提高计算效率。

八、总结

灵活性：Spark 提供多种接口，支持批处理、流处理和机器学习。
高性能：内存计算和优化的 DAG 提供卓越性能。
兼容性：支持 Hadoop 和多种文件格式。

通过本教程，你可以快速掌握 PySpark 的基本使用，并将其应用于实际的大数据处理任务中！

System

2024-11-30

所有,python

评价模型是对复杂问题进行多维度分析和决策的重要工具。在这篇文章中，我们将详细介绍三种常见的评价模型：层次分析法（AHP）、熵权法 和 TOPSIS分析，并通过 Python 实现及例题帮助你更好地理解和应用这些方法。

一、层次分析法（AHP）

1.1 原理简介

层次分析法（AHP）是一种用于多准则决策的数学方法，其核心思想是将复杂问题分解为多个层次，逐步进行重要性比较，并最终获得权重和排序。

AHP 的主要步骤：

构建层次结构模型。
构造判断矩阵。
计算权重和一致性检查。

1.2 Python 实现层次分析法

示例题目：

假设某公司需要评估三个供应商的综合能力，考虑价格、质量和交货时间三个因素，如何用 AHP 进行排序？

代码实现：

import numpy as np

# 判断矩阵
criteria_matrix = np.array([
    [1, 1/3, 3],
    [3, 1, 5],
    [1/3, 1/5, 1]
])

def calculate_weights(matrix):
    eigvals, eigvecs = np.linalg.eig(matrix)
    max_eigval = np.max(eigvals.real)  # 最大特征值
    max_eigvec = eigvecs[:, np.argmax(eigvals.real)].real  # 对应特征向量
    weights = max_eigvec / sum(max_eigvec)  # 归一化
    return weights, max_eigval

# 计算权重和一致性比率
weights, max_eigval = calculate_weights(criteria_matrix)
n = len(criteria_matrix)
CI = (max_eigval - n) / (n - 1)  # 一致性指标
RI = [0, 0, 0.58, 0.9, 1.12][n-1]  # 随机一致性指标（对应矩阵大小）
CR = CI / RI  # 一致性比率

if CR < 0.1:
    print(f"权重: {weights}, 矩阵通过一致性检查，CR={CR:.4f}")
else:
    print("判断矩阵一致性检查未通过，请调整判断矩阵！")

1.3 结果解释

权重：用于评估各因素的重要性，例如 [0.2, 0.5, 0.3] 表示质量权重最高。
一致性检查：若 CR 小于 0.1，说明判断矩阵的一致性较好。

二、熵权法

2.1 原理简介

熵权法通过计算数据的熵值来衡量指标的离散程度，从而确定指标的重要性。熵值越小，说明指标越重要。

熵权法的步骤：

构建原始数据矩阵。
数据归一化处理。
计算每列的熵值。
根据熵值计算权重。

2.2 Python 实现熵权法

示例题目：

评估某系统的性能，包含响应速度、准确率和资源消耗三项指标。

代码实现：

import numpy as np

# 原始数据矩阵
data = np.array([
    [0.9, 0.8, 0.6],
    [0.7, 0.9, 0.4],
    [0.8, 0.7, 0.5]
])

def entropy_weight(data):
    # 归一化处理
    norm_data = data / data.sum(axis=0)
    # 计算信息熵
    entropy = -np.sum(norm_data * np.log(norm_data + 1e-10), axis=0) / np.log(len(data))
    # 熵权
    weights = (1 - entropy) / np.sum(1 - entropy)
    return weights

weights = entropy_weight(data)
print(f"熵权法计算的权重: {weights}")

2.3 结果解释

权重：表示指标的重要性分布，例如 [0.4, 0.3, 0.3] 表示响应速度最重要。

三、TOPSIS分析

3.1 原理简介

TOPSIS（Technique for Order Preference by Similarity to Ideal Solution）是一种评价方法，其基本思想是：

寻找最优解（正理想解）和最劣解（负理想解）。
计算每个备选项与最优解和最劣解的距离。
综合距离计算得分。

3.2 Python 实现 TOPSIS

示例题目：

对三个方案进行评分，考虑成本、性能、可靠性三项指标。

代码实现：

def topsis(data, weights):
    # 数据归一化
    norm_data = data / np.sqrt((data**2).sum(axis=0))
    # 加权矩阵
    weighted_data = norm_data * weights
    # 正理想解和负理想解
    ideal_best = weighted_data.max(axis=0)
    ideal_worst = weighted_data.min(axis=0)
    # 计算距离
    dist_best = np.sqrt(((weighted_data - ideal_best)**2).sum(axis=1))
    dist_worst = np.sqrt(((weighted_data - ideal_worst)**2).sum(axis=1))
    # 计算得分
    scores = dist_worst / (dist_best + dist_worst)
    return scores

# 示例数据
data = np.array([
    [100, 80, 90],
    [95, 85, 85],
    [90, 90, 80]
])
weights = np.array([0.3, 0.4, 0.3])  # 假设已知的权重

scores = topsis(data, weights)
print(f"TOPSIS分析得分: {scores}")

3.3 结果解释

得分：得分越高，方案越优。例如 [0.6, 0.7, 0.8] 表示第三个方案最好。

四、对比与总结

方法	优点	缺点	适用场景
AHP	结构清晰，适用于定性分析	构造判断矩阵较主观	指标数量较少的场景
熵权法	数据驱动，无需人为干预	对数据质量要求较高	数据指标较多的场景
TOPSIS	简单高效，能平衡正负理想解	需先确定权重	综合指标评分与排序

五、总结

层次分析法（AHP）适用于主观评估问题，可用于小型决策场景。
熵权法适用于大数据量、客观数据指标的分析。
TOPSIS 是一种高效的多目标决策方法，适用于综合排序和选择。

通过本文的代码与示例，你可以轻松掌握这三种评价模型的核心思想和实现方式，进一步拓展到实际应用中！

- 阅读更多 -

一文弄懂 Seaborn 绘制热力图

System

2024-11-29

所有,python

一文弄懂 Seaborn 绘制热力图

热力图是一种用于数据可视化的强大工具，能够直观地展示数值数据在二维表格中的分布情况。本文将详细讲解如何使用 Seaborn 绘制热力图，并配以代码示例和图解，帮助你快速掌握热力图的使用。

一、什么是热力图？

热力图是一种通过颜色变化来表示数值大小的二维图表，常用于相关性分析、矩阵数据展示等场景。例如：

展示特征之间的相关性。
可视化某些值的分布。

二、安装 Seaborn

如果尚未安装 Seaborn，可以使用以下命令进行安装：

pip install seaborn

三、绘制热力图的基本步骤

3.1 导入必要库

import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

3.2 准备数据

示例数据：随机生成矩阵

# 生成随机数据
data = np.random.rand(10, 10)  # 10x10 矩阵
columns = [f"Feature {i+1}" for i in range(10)]
index = [f"Sample {i+1}" for i in range(10)]

# 转换为 Pandas DataFrame
df = pd.DataFrame(data, columns=columns, index=index)
print(df.head())

3.3 使用 Seaborn 绘制基本热力图

绘制基本热力图

plt.figure(figsize=(10, 8))
sns.heatmap(df, cmap="viridis")
plt.title("Basic Heatmap")
plt.show()

代码说明

sns.heatmap：绘制热力图。
cmap：颜色映射表，可以选择 viridis、coolwarm、Blues 等。

四、热力图的高级功能

4.1 显示数据值

通过 annot=True 参数，可以在每个格子中显示数据值：

plt.figure(figsize=(10, 8))
sns.heatmap(df, cmap="coolwarm", annot=True, fmt=".2f")
plt.title("Heatmap with Values")
plt.show()

代码说明

annot=True：显示每个单元格的值。
fmt=".2f"：数值格式化为两位小数。

4.2 添加颜色条

通过 cbar=True 参数，可以添加颜色条：

plt.figure(figsize=(10, 8))
sns.heatmap(df, cmap="YlGnBu", cbar=True)
plt.title("Heatmap with Color Bar")
plt.show()

4.3 调整坐标轴标签

使用 xticklabels 和 yticklabels 调整或旋转坐标轴标签：

plt.figure(figsize=(10, 8))
sns.heatmap(df, cmap="coolwarm", xticklabels=2, yticklabels=2)
plt.title("Heatmap with Adjusted Labels")
plt.show()

代码说明

xticklabels 和 yticklabels：设置标签间隔。例如，2 表示每隔两列/行显示一次标签。

4.4 屏蔽上三角或下三角

在某些场景中（如相关性矩阵），只需显示矩阵的一部分：

# 生成对称矩阵（示例：相关性矩阵）
correlation_matrix = np.corrcoef(data)
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))  # 上三角为 True

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, mask=mask, cmap="coolwarm", annot=True, fmt=".2f")
plt.title("Heatmap with Masked Upper Triangle")
plt.show()

五、热力图实战案例

5.1 相关性分析

# 示例数据
tips = sns.load_dataset("tips")

# 计算相关性矩阵
corr = tips.corr()

# 绘制相关性热力图
plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Correlation Heatmap")
plt.show()

示例解释

数据集 tips 包含小费数据。
corr() 用于计算特征间的相关性矩阵。
热力图显示特征之间的线性相关性。

六、常用参数汇总

参数	作用	示例值
`cmap`	颜色映射表	`"viridis"`，`"coolwarm"`
`annot`	是否显示数据值	`True` 或 `False`
`fmt`	数值格式化	`".2f"`
`linewidths`	设置格子间距	`0.5`
`mask`	遮罩矩阵，用于屏蔽部分区域	`np.triu(np.ones_like(...))`

七、总结

Seaborn 的热力图功能强大，适用于多种场景的数据可视化。本文从基础到高级、再到实战案例，详细讲解了热力图的各种功能。掌握这些技巧后，你可以轻松使用热力图直观地展示数据分布与关系。

学习要点：

基础用法：快速绘制热力图，理解其结构。
参数调节：通过调整 annot、cmap 等参数优化热力图。
实战案例：应用于相关性分析等实际任务。

快动手试试，用 Seaborn 绘制属于你的精美热力图吧！

- 阅读更多 -

如何构建基于 Python 的推荐系统

System

2024-11-29

所有,python

如何构建基于 Python 的推荐系统

推荐系统是现代信息系统的重要组成部分，广泛应用于电商、流媒体、社交网络等领域。本文将详细讲解如何使用 Python 构建一个简单的推荐系统，涵盖用户协同过滤和基于内容的推荐方法。

一、推荐系统的类型

推荐系统分为以下几种常见类型：

基于内容的推荐：
- 根据用户的兴趣和项目的内容特征进行推荐。
协同过滤推荐：
- 基于用户的协同过滤：推荐与用户兴趣相似的其他用户喜欢的项目。
- 基于项目的协同过滤：推荐与用户喜欢的项目相似的其他项目。
混合推荐：
- 将多种推荐方法结合起来，提升推荐效果。

二、构建推荐系统的步骤

数据预处理
计算相似性
构建推荐算法
可视化与评价

三、代码实现

3.1 环境准备

安装必要的库

pip install pandas numpy scikit-learn matplotlib

导入库

import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
import matplotlib.pyplot as plt

3.2 数据准备

示例数据

我们使用一个简单的电影评分数据集：

data = {
    "User": ["A", "A", "B", "B", "C", "C", "D", "E"],
    "Movie": ["Matrix", "Inception", "Matrix", "Avatar", "Inception", "Titanic", "Matrix", "Titanic"],
    "Rating": [5, 4, 4, 5, 5, 3, 4, 2]
}

df = pd.DataFrame(data)
print(df)

3.3 基于内容的推荐

数据处理

假设每部电影有描述信息：

movie_data = {
    "Movie": ["Matrix", "Inception", "Avatar", "Titanic"],
    "Description": [
        "Sci-fi action with AI and virtual reality",
        "Dream manipulation and sci-fi thriller",
        "Sci-fi adventure on an alien planet",
        "Romantic drama on a sinking ship"
    ]
}
movies_df = pd.DataFrame(movie_data)

TF-IDF 特征提取

使用 TfidfVectorizer 提取电影描述的特征：

tfidf = TfidfVectorizer(stop_words="english")
tfidf_matrix = tfidf.fit_transform(movies_df["Description"])

print(f"TF-IDF 矩阵形状: {tfidf_matrix.shape}")

计算相似性

使用余弦相似度计算电影之间的相似性：

cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
similarity_df = pd.DataFrame(cosine_sim, index=movies_df["Movie"], columns=movies_df["Movie"])
print(similarity_df)

3.4 基于用户协同过滤

创建用户-电影评分矩阵

user_movie_matrix = df.pivot(index="User", columns="Movie", values="Rating").fillna(0)
print(user_movie_matrix)

计算用户相似性

user_similarity = cosine_similarity(user_movie_matrix)
user_similarity_df = pd.DataFrame(user_similarity, index=user_movie_matrix.index, columns=user_movie_matrix.index)
print(user_similarity_df)

3.5 可视化推荐结果

使用条形图展示推荐结果：

user_recommendation.plot(kind="bar", title="User A Recommendations", color="skyblue")
plt.xlabel("Movies")
plt.ylabel("Predicted Rating")
plt.show()

四、改进与优化

数据扩充：使用更丰富的特征，例如用户行为、时间戳等。
模型升级：引入深度学习推荐模型，如神经协同过滤（NCF）。
混合推荐：结合基于内容和协同过滤的结果，提升推荐精度。
在线推荐：构建 Flask/Django 后端，实现实时推荐。

五、总结

本文展示了如何使用 Python 构建基于内容的推荐系统和基于用户协同过滤的推荐系统，包括数据预处理、相似性计算和推荐函数的实现。希望通过这篇文章，你能轻松掌握推荐系统的基本原理和实现方法。

学习要点：

掌握了 TF-IDF 和余弦相似度的应用。
理解了用户协同过滤的核心逻辑。
了解了推荐系统的评价与优化方法。

推荐系统是一个充满挑战和潜力的领域，期待你在实践中构建出更强大的推荐模型！

- 阅读更多 -

基于TF-IDF+KMeans聚类算法构建中文文本分类模型

System

2024-11-29

所有,python

基于 TF-IDF + KMeans 聚类算法构建中文文本分类模型

文本分类是自然语言处理（NLP）领域的重要任务之一，而结合 TF-IDF 和 KMeans 聚类算法可以快速构建无监督的文本分类模型。本文将详细讲解如何通过 TF-IDF 提取文本特征，使用 KMeans 聚类文本，并对结果进行可视化。

一、背景知识

1.1 什么是 TF-IDF？

TF-IDF（Term Frequency-Inverse Document Frequency） 是一种评估单词在文档集合中重要程度的统计方法。其核心思想是：

词频（TF）：单词在当前文档中出现的频率。
逆文档频率（IDF）：单词在所有文档中出现的稀有程度。

TF-IDF 的公式为：

\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \text{IDF}(t)

1.2 什么是 KMeans 聚类？

KMeans 聚类 是一种无监督学习算法，用于将数据点分为 $(k)$ 个簇。其基本流程包括：

随机初始化 $(k)$ 个簇中心。
根据样本到簇中心的距离，将样本分配到最近的簇。
重新计算每个簇的中心。
重复上述过程，直到簇中心收敛。

1.3 任务目标

通过 TF-IDF 提取中文文本特征，使用 KMeans 进行聚类，从而实现文本分类。

二、项目流程

数据预处理
构建 TF-IDF 特征矩阵
使用 KMeans 进行聚类
可视化聚类结果
评价与改进

三、代码实现

3.1 环境准备

安装依赖

pip install sklearn pandas jieba matplotlib

导入库

import pandas as pd
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from wordcloud import WordCloud

3.2 数据预处理

示例数据

我们使用一个包含中文文本的数据集：

data = [
    "我喜欢看科幻小说",
    "编程是我的兴趣之一",
    "足球比赛非常精彩",
    "Python 是一门强大的编程语言",
    "人工智能正在改变世界",
    "我最喜欢的运动是篮球",
    "机器学习和深度学习是 AI 的核心",
    "NBA 比赛非常刺激",
    "大数据和云计算正在兴起",
    "小说中的人物非常有趣"
]

df = pd.DataFrame(data, columns=["content"])

分词处理

使用 jieba 对文本进行分词：

def chinese_tokenizer(text):
    return " ".join(jieba.cut(text))

df['tokenized'] = df['content'].apply(chinese_tokenizer)
print(df.head())

3.3 构建 TF-IDF 特征矩阵

使用 TfidfVectorizer 转换文本为 TF-IDF 特征矩阵：

tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(df['tokenized'])

print(f"TF-IDF 矩阵形状: {tfidf_matrix.shape}")

3.4 KMeans 聚类

模型训练

设定聚类数 $(k=3)$ ：

kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(tfidf_matrix)

# 将聚类结果添加到数据集中
df['cluster'] = kmeans.labels_
print(df)

确定最佳聚类数

使用 肘部法则 找到最优 $(k)$ ：

inertia = []
for k in range(1, 10):
    km = KMeans(n_clusters=k, random_state=42)
    km.fit(tfidf_matrix)
    inertia.append(km.inertia_)

plt.plot(range(1, 10), inertia, marker='o')
plt.title('肘部法则')
plt.xlabel('聚类数 (k)')
plt.ylabel('SSE')
plt.show()

3.5 可视化结果

词云展示每个簇的关键词

for i in range(3):
    cluster_texts = df[df['cluster'] == i]['tokenized'].str.cat(sep=" ")
    wordcloud = WordCloud(font_path="simhei.ttf", background_color="white").generate(cluster_texts)
    
    plt.figure()
    plt.imshow(wordcloud, interpolation="bilinear")
    plt.axis("off")
    plt.title(f"Cluster {i} WordCloud")
    plt.show()

聚类结果分布

使用降维方法（如 PCA）可视化聚类分布：

from sklearn.decomposition import PCA

# 降维至 2D
pca = PCA(n_components=2)
reduced_data = pca.fit_transform(tfidf_matrix.toarray())

# 可视化
plt.figure(figsize=(8, 6))
for i in range(3):
    cluster_data = reduced_data[df['cluster'] == i]
    plt.scatter(cluster_data[:, 0], cluster_data[:, 1], label=f"Cluster {i}")

plt.legend()
plt.title("KMeans Clustering")
plt.show()

四、结果分析

4.1 模型输出

在上面的代码中，每条文本被分配到了一个聚类，示例输出如下：

              content                tokenized  cluster
0          我喜欢看科幻小说             我 喜欢 看 科幻 小说       0
1          编程是我的兴趣之一             编程 是 我 的 兴趣 之一       1
2          足球比赛非常精彩             足球 比赛 非常 精彩       2
...

4.2 聚类效果分析

从聚类结果可以看出：

Cluster 0：与小说相关的文本。
Cluster 1：与编程和 AI 相关的文本。
Cluster 2：与运动比赛相关的文本。

五、优化与改进

改进分词效果：使用自定义词典，优化 jieba 分词。
调整超参数：通过肘部法则、轮廓系数等方法选择最佳聚类数。
丰富数据集：增加更多样本，提高模型泛化能力。
使用深度学习模型：如 Bert 提取特征，结合 KMeans 进一步优化聚类效果。

六、总结

本文通过 TF-IDF + KMeans 聚类构建了一个中文文本分类模型，并演示了从数据预处理到聚类可视化的完整流程。无监督学习方法适用于无标签数据的分类任务，为实际问题提供了一种高效的解决方案。

学习收获

掌握了 TF-IDF 的特征提取方法。
理解了 KMeans 聚类算法及其应用。
学会了用 Python 实现中文文本的无监督分类。

希望本文对你构建自己的文本分类模型有所帮助！

- 阅读更多 -