分类后端技术下的文章

Python爬虫实战案例——音乐爬虫，收费歌曲依旧可用

2024-08-14




import requests
from bs4 import BeautifulSoup
import re
 
# 音乐下载函数
def download_music(url, filename):
    response = requests.get(url, stream=True)
    with open(filename, 'wb') as f:
        for chunk in response.iter_content(chunk_size=1024):
            if chunk:
                f.write(chunk)
    print(f"{filename} 下载完成。")
 
# 主函数
def main(url):
    headers = {
        'User-Agent': 'Mozilla/5.0',
        'Referer': 'http://music.163.com/'
    }
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 获取歌曲信息
    music_name = soup.select('.nm a')[0].text
    music_link = soup.select('.u.fl a')[0]['href']
    
    # 获取歌曲URL
    music_url_response = requests.get(music_link, headers=headers)
    music_soup = BeautifulSoup(music_url_response.text, 'html.parser')
    music_url = re.findall(r'\"url\"\:\"(http[^\"]+)\"', music_soup.text)[0]
    
    # 下载歌曲
    download_music(music_url, music_name + '.mp3')
 
# 测试用的URL
url = 'https://music.163.com/#/song?id=446677690'
main(url)

这段代码使用了requests库来发送HTTP请求，以及BeautifulSoup库来解析HTML页面。代码首先定义了一个下载音乐的函数，然后在主函数中，使用BeautifulSoup对象从页面中提取歌曲信息和歌曲URL，并调用下载函数来下载歌曲。最后，代码提供了一个测试用的URL，运行主函数即可下载歌曲。

Java｜用爬虫解决问题

2024-08-14

由于问题描述不具体，以下是一个使用Java进行网络爬虫的基本示例，用于抓取一个网页的标题。

首先，你需要添加依赖项，例如使用JSoup，一个简单易用的HTML解析库：




<!-- 添加到你的pom.xml中 -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

然后，你可以编写一个简单的爬虫来抓取网页标题：




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
 
public class WebCrawlerExample {
    public static void main(String[] args) {
        String url = "http://example.com"; // 替换为你想抓取的网址
        try {
            Document document = Jsoup.connect(url).get();
            String title = document.title();
            System.out.println("网页标题: " + title);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这段代码使用了Jsoup库来连接到指定的URL，并获取了该页面的HTML文档对象。然后，它从文档对象中提取了标题并将其打印出来。

请注意，实际的网络爬虫可能需要处理更复杂的情况，例如多页面爬取、处理Ajax加载内容、处理登录验证、并发下载等。这个例子只是一个入门级的爬虫，用于演示如何使用Java和Jsoup库来简单抓取网页信息。

『scrapy爬虫』01. 安装环境创建示例项目（保姆级图文）

2024-08-14

在开始创建Scrapy爬虫之前，请确保您的系统已安装Python。以下是安装Scrapy爬虫的步骤：

安装Scrapy：
打开终端或命令提示符，并运行以下命令来安装Scrapy：
```
pip install scrapy
```
创建Scrapy项目：
定位到您希望创建项目的目录，然后运行以下命令来创建一个新的Scrapy项目。将myproject替换为您的项目名称。
```
scrapy startproject myproject
```
进入项目目录：
```
cd myproject
```
创建爬虫：
运行以下命令来创建一个新的爬虫。将myspider替换为您的爬虫名称，并且将example.com替换为您想要爬取的网站。
```
scrapy genspider myspider example.com
```
运行爬虫：
在项目目录中，运行以下命令来测试爬虫：
```
scrapy crawl myspider
```

以上步骤将会创建一个Scrapy项目，并生成一个简单的爬虫模板。您可以开始编辑爬虫代码来满足您的数据抓取需求。

【爬虫实战】使用Python获取花粉俱乐部中Mate60系列的用户发帖数据

2024-08-14




import requests
from lxml import etree
import pandas as pd
 
# 请求头部信息，模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': 'http://www.huaban.com/favorite/meinv/',
}
 
# 获取网页源代码的函数
def get_page_source(url):
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    return None
 
# 解析网页源代码，提取数据的函数
def parse_data(html):
    tree = etree.HTML(html)
    post_titles = tree.xpath('//div[@class="photo-item-info"]/a/text()')
    post_urls = tree.xpath('//div[@class="photo-item-info"]/a/@href')
    post_authors = tree.xpath('//div[@class="author"]/a/text()')
    post_times = tree.xpath('//div[@class="date"]/text()')
    post_comments = tree.xpath('//div[@class="photo-item-bottom"]/div[@class="digg"]/span/text()')
    
    data = {
        '标题': post_titles,
        '链接': post_urls,
        '作者': post_authors,
        '时间': post_times,
        '点赞数': post_comments
    }
    return data
 
# 保存数据到CSV文件的函数
def save_to_csv(data, filename):
    df = pd.DataFrame(data)
    df.to_csv(filename + '.csv', index=False, encoding='utf-8')
 
# 主函数
def main():
    # 请求的起始页
    start_page = 1
    # 总页数
    total_page = 10
    # 花粉俱乐部Mate60系列帖子的起始URL
    base_url = 'http://www.huaban.com/favorite/meinv/board/20012266/?page='
    
    # 存储数据的字典
    all_data = {
        '标题': [],
        '链接': [],
        '作者': [],
        '时间': [],
        '点赞数': []
    }
    
    # 循环遍历每一页
    for page in range(start_page, total_page + 1):
        print(f'正在抓取第{page}页的数据...')
        url = base_url + str(page)
        html = get_page_source(url)
        if html:
            data = parse_data(html)
            for key in all_data.keys():
                all_data[key].extend(data[key])
        else:
            print(f'第{page}页数据抓取失败。')
    
    # 保存数据到CSV文件
    save_to_csv(all_data, 'Mate60_Favorites')
 
if __name__ == '__main__':
    main()

这段代码首先定义了请求花粉俱乐部时需要用到的请求头部信息，以及获取网页源代码和解析数据的函数。主函数中定义了起始页、总页数和起始URL，然后通过循环抓取每一页的数据，并将其保存到一个字典中。最后，将这个字典中的数据保存到CSV文件中。这个过程遵循了爬虫的基本步骤，并使用了请求库requests、lxml库来解析HTML、pandas库来保存数据。

【Python学习】网络爬虫-获取京东商品评论并制作柱状图

2024-08-14




import requests
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
 
# 获取京东商品评论
def get_jd_comments(url):
    headers = {
        'User-Agent': 'Mozilla/5.0',
        'Referer': 'https://item.jd.com/100012043978.html'  # 请替换为你要爬取的商品页面URL
    }
    r = requests.get(url, headers=headers)
    soup = BeautifulSoup(r.text, 'lxml')
    comments = soup.find_all('p', class_='comment-content')
    return [comment.text.strip() for comment in comments]
 
# 分析评论并绘制柱状图
def analyze_and_draw_bar(comments):
    words = []
    for comment in comments:
        words.extend(comment.split())
    word_count = {}
    for word in words:
        word_count[word] = word_count.get(word, 0) + 1
    words = list(word_count.keys())
    counts = [word_count[word] for word in words]
    plt.bar(words, counts)
    plt.show()
 
# 主函数
def main():
    # 请替换为评论页面的URL
    url = 'https://item.jd.com/100012043978.html'
    comments = get_jd_comments(url)
    analyze_and_draw_bar(comments)
 
if __name__ == '__main__':
    main()

这段代码首先定义了一个获取京东商品评论的函数get_jd_comments，它使用了Requests库来发送HTTP请求，并用BeautifulSoup库来解析页面。然后定义了一个分析评论并绘制柱状图的函数analyze_and_draw_bar，它统计每个词出现的次数，并使用Matplotlib库绘制柱状图。最后，在main函数中调用了这两个函数来获取评论并分析。

python 实现高清化图片手把手教学_python将图片变清晰

2024-08-14

所有,python

在Python中，可以使用Pillow库来实现图片的高清化，也就是提高图片的清晰度。以下是一个简单的例子，演示如何使用Pillow来增强图片的清晰度：

首先，确保安装了Pillow库：




pip install Pillow

然后，使用以下Python代码来增强图片清晰度：




from PIL import Image
import numpy as np
 
def sharpen_image(image_path, factor=1.5):
    image = Image.open(image_path)
    # 将图片转换为灰度图
    gray_image = image.convert('L')
    # 将图片转换为numpy数组
    array_image = np.array(gray_image)
    # 计算滤镜
    sharpen_filter = np.array([[-1, -1, -1],
                               [-1, factor + 4, -1],
                               [-1, -1, -1]])
    # 应用滤镜
    sharpen_image = np.abs(np.dot(array_image, sharpen_filter))
    # 将numpy数组转换回PIL图片
    sharpen_image = Image.fromarray(sharpen_image)
    return sharpen_image
 
# 使用函数增强图片清晰度
original_image = Image.open('original.jpg')
sharpened_image = sharpen_image(original_image, factor=2.5)
sharpened_image.save('sharpened.jpg')

这段代码定义了一个sharpen_image函数，它接受一个图片路径和一个清晰度系数factor。函数首先将图片转换为灰度图像，然后使用一个简单的锐化滤镜来增强图片的清晰度，最后保存处理后的图片。

请注意，这个简单的锐化滤镜并不适用于所有类型的图片，对于具体的图片，可能需要调整锐化滤镜的参数以获得最佳效果。

深入解析 MongoDB 与 Python：基本语法、实用示例与最佳实践

2024-08-14

所有,python




from pymongo import MongoClient
 
# 连接到MongoDB
client = MongoClient('mongodb://localhost:27017/')
 
# 选择数据库
db = client['mydatabase']
 
# 选择集合（类似于SQL中的表）
collection = db['mycollection']
 
# 插入文档
collection.insert_one({'name': 'Alice', 'age': 25, 'address': '123 Maple Lane'})
 
# 查询文档
alice = collection.find_one({'name': 'Alice'})
print(alice)
 
# 更新文档
collection.update_one({'name': 'Alice'}, {'$set': {'age': 30}})
 
# 删除文档
collection.delete_one({'name': 'Alice'})
 
# 关闭连接
client.close()

这段代码展示了如何使用pymongo库连接到本地MongoDB实例，选择数据库和集合，插入、查询、更新和删除文档。最后，它关闭了与MongoDB的连接。这是一个很好的入门级教程，适合想要了解如何在Python中使用MongoDB进行基本操作的开发者。

Python 搞懂Logger模块让老板刮目相看

2024-08-14

所有,python

在Python中，logging模块是标准库中用于日志管理的模块。它提供了简单、灵活的日志系统，可以配置日志以记录不同类型的消息，并可以控制每条消息的级别、格式以及它们的目的地。

以下是一个使用logging模块的基本示例：




import logging
 
# 配置日志系统
logging.basicConfig(level=logging.INFO)
 
# 创建一个日志器
logger = logging.getLogger(__name__)
 
# 记录一条信息
logger.info('这是一条信息级别的日志')
logger.debug('这是一条调试级别的日志')
logger.warning('这是一条警告级别的日志')
logger.error('这是一条错误级别的日志')
logger.critical('这是一条严重错误级别的日志')

在这个例子中，我们配置了日志系统以记录至少是信息级别的日志。我们还创建了一个日志器，用于记录不同类型的日志消息。basicConfig函数是可选的，但它用于设置日志的全局配置。如果你需要更复杂的日志配置，你可以通过FileHandlers、StreamHandlers和Formatters来自定义日志行为。