标签 python 下的文章

探索 `multiprocessing-logging`：优化Python多进程日志处理的新工具

2024-08-13




import logging
from multiprocessing import Process, Lock
 
def get_logger(lock: Lock):
    """
    创建一个带有Lock的日志记录器，用于多进程场景。
    """
    handler = logging.FileHandler('multiprocess_log.txt')
    handler.acquire = lock.acquire
    handler.release = lock.release
    logger = logging.getLogger('mylogger')
    logger.addHandler(handler)
    logger.setLevel(logging.DEBUG)
    return logger
 
def worker(lock: Lock, logger):
    """
    多进程使用的工作函数，安全地记录日志。
    """
    with lock:
        logger.info(f'This is a log message from process {os.getpid()}')
 
if __name__ == '__main__':
    lock = Lock()
    logger = get_logger(lock)
    processes = [Process(target=worker, args=(lock, logger)) for _ in range(4)]
    for p in processes:
        p.start()
    for p in processes:
        p.join()

这个代码示例展示了如何使用multiprocessing模块和logging模块创建一个多进程安全的日志记录器。它定义了一个带有锁的日志记录器工厂函数get_logger，以及一个使用该记录器的工作函数worker。在主程序中，我们创建了记录器和多个工作进程，确保他们安全地记录日志信息。

- 阅读更多 -

Python神技：pd.read_excel怎样读取多sheet页数据

System

2024-08-13

所有,python

在Python中，使用pandas的read_excel函数可以读取Excel文件中的多个sheet页。你可以通过传递sheet_name参数来指定需要读取的sheet页。如果你想读取所有的sheet页，可以设置sheet_name=None。

以下是一些示例代码：

读取指定的sheet页：




import pandas as pd
 
# 读取名为'Sheet1'的sheet页
df = pd.read_excel('example.xlsx', sheet_name='Sheet1')

读取所有sheet页，并返回一个字典：




# 读取所有sheet页，并以sheet名为键，数据框为值，返回一个字典
dfs = pd.read_excel('example.xlsx', sheet_name=None)

在读取多个sheet页之后，你可以通过sheet名来访问特定的数据框。例如：




# 访问名为'Sheet2'的sheet页的数据框
df_sheet2 = dfs['Sheet2']

- 阅读更多 -

Python之html2text，清晰解读HTML内容！

System

2024-08-13

所有,html




import html2text
 
# 示例HTML内容
html_content = """
<h1>欢迎来到我的网站</h1>
<p>这里有你需要的所有信息。</p>
<ul>
  <li>信息1</li>
  <li>信息2</li>
  <li>信息3</li>
</ul>
"""
 
# 使用html2text转换HTML为纯文本
text_converter = html2text.HTML2Text()
text_converter.ignore_links = True
clean_text = text_converter.handle(html_content)
 
print(clean_text)

这段代码演示了如何使用html2text库将HTML内容转换为清晰的文本格式。首先导入库，然后定义一个包含HTML标签的字符串。接着，创建html2text.HTML2Text的实例，并调用其handle方法进行转换。最后，打印输出转换后的文本内容。这个过程很直接地展示了如何使用这个库进行基本的HTML内容解析。

- 阅读更多 -

【Python】爬虫实战02：电影市场票房情况分析与可视化

System

2024-08-13

所有,爬虫




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
# 获取网页内容
def get_html(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        response = requests.get(url, headers=headers)
        return response.text
    except requests.RequestException as e:
        print(e)
        return None
 
# 解析网页数据
def parse_data(html):
    soup = BeautifulSoup(html, 'lxml')
    data = []
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            data.append({
                '排名': tds[0].text,
                '电影名': tds[1].text,
                '票房': tds[2].text,
                '上映天数': tds[3].text,
                '上映场次': tds[4].text,
                '人均票房': tds[5].text
            })
    return data
 
# 保存数据到CSV
def save_to_csv(data, filename):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False, encoding='utf-8-sig')
 
# 主函数
def main():
    url = 'http://www.bj-m.com/boxoffice/bom/202101/ranking.html'
    html = get_html(url)
    data = parse_data(html)
    save_to_csv(data, '2021年1月票房排行.csv')
 
if __name__ == '__main__':
    main()

这段代码实现了从网页爬取数据、解析数据、保存数据到CSV文件的完整流程。使用了requests库获取网页内容，BeautifulSoup进行网页解析，pandas处理和保存数据。代码简洁，注重逻辑性和实用性，是学习爬虫技术的一个很好的示例。

- 阅读更多 -

KU地址Python之爬虫小人生

System

2024-08-13

所有,爬虫

这是一个使用Python编写的简单网络爬虫示例，用于抓取豆瓣电影TOP250的电影信息。




import requests
from bs4 import BeautifulSoup
import csv
 
# 设置User-Agent，模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
# 保存数据的CSV文件
filename = 'douban_movies.csv'
 
# 开启CSV文件进行写入
with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['Title', 'Year', 'Rating', 'Votes', 'Director', 'Writer', 'Actors', 'Summary'])
 
    # 爬取的起始页面URL
    for page in range(0, 251, 25):
        print(f'正在抓取第 {page//25 + 1} 页...')
        url = f'https://movie.douban.com/top250?start={page}&filter='
 
        # 发送HTTP请求
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # 检查请求是否成功
        soup = BeautifulSoup(response.text, 'html.parser')  # 解析网页
 
        # 查找每部电影的信息
        for movie in soup.find_all('li', class_='item'):
            # 电影标题
            title = movie.find('span', class_='title').text
 
            # 年份、评分、评分人数、导演、编剧、演员、简介
            info = movie.find_all('div', class_='info')
            year = info[0].find('div', class_='bd').find('span', class_='year').text
            rating = info[1].find('div', class_='bd').find('strong').text
            votes = info[1].find('div', class_='bd').find('span', class_='votes').text
            director = info[2].find_all('p', 'text')[0].text.replace('导演: ', '')
            writer = info[2].find_all('p', 'text')[1].text.replace('编剧: ', '')
            actors = info[2].find('div', class_='star').text
            summary = movie.find('p', class_='quote').text
 
            # 将数据写入CSV文件
            writer.writerow([title, year, rating, votes, director, writer, actors, summary])
 
print('所有页面抓取完毕，数据已保存。')

这段代码首先设置了HTTP请求头中的User-Agent，以模拟浏览器访问，避免了反爬虫策略。然后，它使用requests库发送HTTP请求，并使用BeautifulSoup库解析网页。对于每一页的每一部电影，它提取并保存了标题、年份、评分、评分人数、导演、编剧、演员和简介。最后，它将这些数据写入了一个CSV文件中。这个例子展示了如何使用Python进行网络爬虫，并且是爬虫入门的一个很好的教学示例。

- 阅读更多 -

Python大作业——爬虫+可视化+数据分析+数据库（数据库篇）

System

2024-08-13

所有,爬虫




import sqlite3
 
# 连接到SQLite数据库（如果不存在，则会创建）
conn = sqlite3.connect('job_database.sqlite3')
 
# 创建一个cursor对象来帮助执行SQL语句
cursor = conn.cursor()
 
# 创建作业表
cursor.execute('''
CREATE TABLE IF NOT EXISTS jobs (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    title TEXT NOT NULL,
    company TEXT NOT NULL,
    location TEXT NOT NULL,
    description TEXT,
    url TEXT NOT NULL
);
''')
 
# 提交事务
conn.commit()
 
# 关闭cursor
cursor.close()
 
# 关闭连接
conn.close()
 
print("数据库表创建成功！")

这段代码展示了如何使用Python的sqlite3库来创建一个SQLite数据库和一个作业表。如果表不存在，它会创建一个包含字段id、title、company、location、description和url的作业表。这是数据库操作的基础，为后续的数据插入、查询和可视化等操作做好了准备。

- 阅读更多 -

python微博舆情分析系统可视化情感分析爬虫机器学习（源码+讲解）✅

System

2024-08-13

所有,爬虫

由于提供源代码涉及版权和隐私问题，我无法直接提供源代码。但我可以提供一个概览和核心函数的示例。

假设我们有一个情感分析的函数，以下是一个简化的示例：




import jieba.analyse
 
# 情感分析函数
def sentiment_analysis(text):
    # 这里可以是更复杂的情感分析逻辑
    # 例如使用机器学习模型或情感词典等
    return "positive" if "好" in text else "negative"
 
# 示例文本
text = "这家酒店服务真的很好，我很满意！"
 
# 使用结巴分词进行词云
words = jieba.cut(text)
words = " ".join(words)
 
# 假设有一个draw_wordcloud函数用于绘制词云
draw_wordcloud(words)
 
# 进行情感分析
sentiment = sentiment_analysis(text)
print(f"情感分析结果: {sentiment}")

这个示例展示了如何使用结巴分词进行文本处理，并假设有一个draw_wordcloud函数用于绘制词云，以及一个简单的情感分析函数。

请注意，实际的情感分析和可视化可能会涉及更复杂的处理，包括特征提取、模型训练和部署等步骤。这个示例只是为了说明如何整合不同的技术到一个系统中。

- 阅读更多 -

用Python实现亚马逊Amazon高性能爬虫采集销量信息

System

2024-08-13

所有,爬虫




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
# 设置用户代理，以模拟真实的浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
# 获取ASIN对应的销量信息
def get_product_ranking(asin):
    url = f'https://www.amazon.com/dp/{asin}/ref=cm_cr_arp_d_paging_btm_2?ie=UTF8'
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 解析销量信息
        ranking_data = soup.find('li', {'id': 'SalesRank'})
        if ranking_data:
            ranking = ranking_data.text.strip()
        else:
            ranking = 'N/A'
        
        return ranking
    except requests.RequestException as e:
        print(f'Error: {e}')
        return 'Error'
 
# 示例：获取ASIN为B01M8YGI1Y的产品销量信息
ranking = get_product_ranking('B01M8YGI1Y')
print(ranking)

这段代码首先导入了必要的模块，设置了请求头以模拟浏览器访问，定义了一个获取产品销量信息的函数，并尝试获取了特定ASIN对应的销量信息。最后，它打印出了获取的销量信息或在发生错误时打印错误信息。这个例子展示了如何使用Python高效地抓取亚马逊的具体产品信息。

- 阅读更多 -

springboot-养老院管理系统

System

2024-08-13

所有,爬虫

该系统是一个Java编写的Spring Boot应用程序，用于养老院的日常管理。系统包含了养老服务、患者管理、员工管理等功能。

以下是系统的核心模块及其功能简介：

患者管理：包括患者信息的增加、删除、修改、查询等操作。
养老服务：提供养老服务的订单管理、支付管理等功能。
员工管理：管理员工的信息，包括工作岗位、薪资等信息。
系统管理：包括系统用户的管理、角色权限的管理等。

为了保证答案的简洁性，这里不提供源代码下载链接。如果需要获取源代码和开发文档，请直接联系源代码提供者。

- 阅读更多 -

【python】爬虫记录每小时金价

System

2024-08-13

所有,爬虫

为了解决这个问题，我们需要一个能够定期抓取金价数据的爬虫，并将抓取的数据以CSV格式保存。以下是一个简单的Python爬虫示例，它使用requests库获取数据，pandas库来处理数据，并使用time库来实现定时任务。

首先，确保安装所需的库：




pip install requests pandas

以下是爬虫的示例代码：




import requests
import pandas as pd
from time import sleep
 
# 金价数据的API URL
api_url = 'http://api.fixer.io'
 
# 定义一个函数来抓取数据
def fetch_exchange_rates(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.json()
    else:
        return None
 
# 定义一个函数来将数据保存到CSV
def save_to_csv(data, filename):
    df = pd.DataFrame.from_dict(data, orient='index').transpose()
    df.to_csv(filename, index=False)
 
# 主程序
if __name__ == '__main__':
    while True:
        # 获取当前金价数据
        data = fetch_exchange_rates(api_url)
        if data:
            # 保存到CSV文件，文件名包含当前时间
            save_to_csv(data, f'exchange_rates_{pd.Timestamp.now():%Y-%m-%d_%H}.csv')
            print(f'Data saved at {pd.Timestamp.now()}.')
        else:
            print('Failed to fetch data.')
        
        # 暂停一小时继续抓取
        sleep(3600)  # 3600秒等于一小时

这个脚本会每小时抓取一次金价数据，并将其保存到CSV文件中。你可以通过修改api_url变量来指定不同的数据源，只要该API提供JSON格式的响应。这个脚本使用了time.sleep()函数来实现每小时的定时抓取。

- 阅读更多 -