分类爬虫下的文章

Python3爬取猫眼电影爬虫（破解字符集反爬）

2024-08-23




import requests
from lxml import etree
import pymysql
 
# 连接数据库
conn = pymysql.connect(host='localhost', user='root', password='12345', database='cat', charset='utf8')
cursor = conn.cursor()
 
# 爬取单个页面的数据
def get_single_page_data(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36',
    }
    response = requests.get(url, headers=headers)
    response.encoding = 'utf-8'
    return response.text
 
# 解析数据
def parse_data(html):
    tree = etree.HTML(html)
    li_list = tree.xpath('//ul[@class="board-wrapper"]/li')
    for li in li_list:
        name = li.xpath('.//div[@class="name"]/a/span/text()')[0]
        score = li.xpath('.//div[@class="star"]/span[@class="rating_num"]/text()')[0]
        # 注意：这里需要处理字符集问题，如果有字符集问题，可以使用如下方式解码
        # name = name.encode('iso-8859-1').decode('utf-8')
        # score = score.encode('iso-8859-1').decode('utf-8')
        print(name, score)
        # 插入数据库
        cursor.execute('insert into movie(name, score) values("%s", "%s")' % (name, score))
        conn.commit()
 
# 主函数
def main():
    for i in range(1, 11):
        url = 'https://maoyan.com/board?offset=' + str((i - 1) * 10)
        html = get_single_page_data(url)
        parse_data(html)
 
if __name__ == '__main__':
    main()

这段代码修复了原代码中的XPath表达式错误，并添加了对字符集问题的处理。如果遇到破解字符集的情况，可以使用.encode('iso-8859-1').decode('utf-8')来进行转码。注意，实际应用中可能需要根据实际网站的字符集进行相应的转换。

挑战杯 python 爬虫与协同过滤的新闻推荐系统

2024-08-23




import requests
from bs4 import BeautifulSoup
import re
import numpy as np
from gensim.models import Word2Vec
from gensim.corpora import Dictionary
 
# 示例函数：从给定URL获取新闻内容
def get_news_content(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    return None
 
# 示例函数：使用BeautifulSoup解析新闻内容，提取标题和正文
def parse_news(news_content):
    soup = BeautifulSoup(news_content, 'html.parser')
    title = soup.find('title').text
    body = soup.find('div', class_='article-body').text
    return title, body
 
# 示例函数：使用正则表达式清洗新闻正文，去除非文本信息
def clean_news_body(body):
    # 这里只是示例，需要根据实际HTML结构调整正则表达式
    cleaned_body = re.sub(r'<[^<]+?>', '', body)
    return cleaned_body
 
# 示例函数：使用Word2Vec训练模型，并对新闻正文进行向量表示
def train_word2vec_model(clean_bodies):
    # 初始化Word2Vec模型并训练
    model = Word2Vec(clean_bodies, size=100, window=5, min_count=1, workers=4)
    return model
 
# 示例函数：使用训练好的Word2Vec模型获取新闻向量表示
def get_news_vector(model, title, body):
    title_vector = np.mean([model[word] for word in title.split() if word in model.wv.vocab], axis=0)
    body_vector = np.mean([model[word] for word in body.split() if word in model.wv.vocab], axis=0)
    return title_vector, body_vector
 
# 示例函数：计算新闻向量的相似度
def calculate_similarity(vector1, vector2):
    return np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))
 
# 示例函数：根据新闻向量相似度进行推荐新闻
def recommend_news(news_vectors, new_vector):
    similarities = [calculate_similarity(vector, new_vector) for vector in news_vectors]
    recommended_indices = np.argpartition(similarities, -3)[-3:]
    return [similarities[index] for index in recommended_indices]
 
# 示例用法
url = 'http://example.com/news'
news_content = get_news_content(url)
title, body = parse_news(news_content)
clean_body = clean_news_body(body)
clean_bodies = [clean_body]  # 假设这里有多篇经过清洗的新闻正文
model = train_word2vec_model(clean_bodies)
title_vector, body_vector = get_news_vector(model, title, body)
similarities = recommend_news(clean_bodies, body_vector)
 
# 输出新闻向量相似度和推荐结果
print(similarities)

这个代码示例提供了从给定URL获取新闻内容、解析新闻、清洗正文、使用Word2Vec训练模型、获取新闻向量以及计算和推荐新闻的基本方法。需要注意的是，这个示例假设所有新闻正文已经清洗并准备好用于向量生成。在实际应用中，需要对新闻内容进行更深入的处理，包括去除广告、标签、特殊字符等，以提高文本处理的质量和推荐的准确性。

Py爬虫+Py简易系统+星火大模型调用

2024-08-23

这个问题涉及的内容较多，我将提供一个简化版的代码示例，展示如何创建一个简易的Python爬虫，并使用PyEcharts进行数据可视化，同时调用腾讯的星火大模型进行内容生成。




import requests
from pyecharts.charts import Bar
from pyecharts import options as opts
from itchat import send_msg
import os
import requests
import json
 
# 爬虫函数：获取数据
def get_data():
    response = requests.get('http://example.com/api/data')
    return response.json()
 
# 数据处理：将爬虫数据转换为Echarts可接受的格式
def process_data(data):
    labels = [item['label'] for item in data]
    values = [item['value'] for item in data]
    return labels, values
 
# 使用Echarts生成图表并发送到微信
def send_chart_to_wechat(chart):
    file_path = 'chart.png'
    chart.render(path=file_path)
    send_msg(file=file_path)
 
# 调用星火大模型
def call_starfire_model(prompt):
    starfire_url = 'https://api.starfire.ai/v1/models/text-generation/predict'
    headers = {'Authorization': 'Bearer YOUR_API_KEY'}
    data = json.dumps({'prompt': prompt})
    response = requests.post(starfire_url, headers=headers, data=data)
    return response.json()['completion']
 
# 主函数
def main():
    data = get_data()  # 获取数据
    labels, values = process_data(data)  # 数据处理
    bar = Bar(init_opts=opts.InitOpts(width='1600px', height='800px'))
    bar.add_xaxis(labels)
    bar.add_yaxis('数据', values)
    send_chart_to_wechat(bar)  # 发送图表到微信
 
    prompt = "基于以下数据，生成一个报告。"
    response = call_starfire_model(prompt)
    send_msg(response)  # 发送模型生成的内容到微信
 
if __name__ == '__main__':
    main()

这个代码示例假设你已经有了一个可以提供数据的API，并且你已经有了一个腾讯星火大模型的API密钥。这个代码展示了如何使用Python爬取数据，处理数据，使用PyEcharts生成图表，并调用腾讯星火大模型生成内容。在实际应用中，你需要替换掉API的URL和模型的API KEY，并确保你的微信号和itchat库的配置是正确的。

爬虫：模拟登录、会话维持、cookie登录、代理、禁止重定向、超时处理、重试

2024-08-23




import requests
from requests.exceptions import RequestException
from retrying import retry
 
@retry
def get_page(url, headers=None, proxies=None, allow_redirects=False, timeout=10):
    try:
        response = requests.get(url, headers=headers, proxies=proxies, allow_redirects=allow_redirects, timeout=timeout)
        if response.status_code == 403:  # 如果返回403，尝试使用cookies登录
            response = login_using_cookies()
        response.raise_for_status()  # 如果响应不是200，抛出异常
        return response.text
    except RequestException as e:
        print(f"请求出错: {e}")
        raise retry  # 如果发生异常，重试
 
def login_using_cookies():
    # 这里应该是登录逻辑，获取cookies，并返回包含cookies的response对象
    # 假设已经实现了login函数，它返回登录后的session对象
    session = login()
    return session.get(url)  # 使用登录后的session发起请求
 
def login():
    # 登录逻辑实现
    pass
 
# 使用示例
headers = {'User-Agent': 'your_user_agent'}
proxies = {'http': 'your_proxy_http', 'https': 'your_proxy_https'}
url = 'http://yourtarget.com'
 
page_content = get_page(url, headers, proxies)
print(page_content)

这个示例代码展示了如何使用Python的requests库编写一个简单的爬虫，它模拟登录、使用代理、禁用重定向、处理超时和实现重试逻辑。在实际应用中，登录逻辑需要根据目标网站的实际情况来实现，并且代理和cookie的处理也应该根据实际情况来设置。

yznu：Python numpy及网络爬虫

2024-08-23

由于原始代码已经比较完整，我们可以直接给出一个简化版的代码实例，用于演示如何使用NumPy和网络爬虫来下载图片。




import requests
import numpy as np
import os
 
# 图片下载函数
def download_image(image_url, image_name):
    response = requests.get(image_url)
    if response.status_code == 200:
        with open(image_name, 'wb') as file:
            file.write(response.content)
 
# 主函数
def main():
    # 图片URL列表
    image_urls = np.loadtxt('image_urls.txt', dtype=str)
    
    # 创建保存图片的文件夹
    if not os.path.exists('images'):
        os.makedirs('images')
    
    # 下载所有图片
    for i, image_url in enumerate(image_urls):
        download_image(image_url, f'images/image_{i}.jpg')
        print(f'Image {i+1} downloaded')
 
if __name__ == '__main__':
    main()

这段代码首先导入了必要的模块，然后定义了一个下载图片的函数download_image。主函数main中，我们使用NumPy的loadtxt函数读取了图片URL列表，并遍历列表下载图片，创建了一个文件夹来保存这些图片，然后调用download_image函数进行下载，并在下载完成后打印消息。

node 前端爬虫 + 可视化

2024-08-23

为了创建一个Node.js前端爬虫并集成可视化界面，你可以使用puppeteer来进行爬取工作，并使用express来搭建一个简单的服务器，同时使用chart.js来创建图表。以下是一个简化的例子：

安装必要的库：




npm install express puppeteer chart.js

创建一个简单的Express服务器，并集成Puppeteer爬虫代码：




const express = require('express');
const puppeteer = require('puppeteer');
const Chart = require('chart.js');
 
const app = express();
const port = 3000;
 
// 爬取数据的函数
async function crawlData() {
    // 爬虫逻辑代码
    // 返回数据
}
 
app.get('/data', async (req, res) => {
    try {
        const data = await crawlData();
        res.json(data);
    } catch (error) {
        res.status(500).send('Server Error');
    }
});
 
app.get('/', (req, res) => {
    res.sendFile(__dirname + '/index.html');
});
 
app.listen(port, () => {
    console.log(`Server running on port ${port}`);
});
 
// 爬虫函数的一个示例
async function crawlData() {
    // 启动浏览器和页面
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    // 导航到目标网站
    await page.goto('http://example.com');
    // 爬取数据的代码
    // ...
    // 关闭浏览器
    await browser.close();
}

创建一个HTML文件来展示图表，并通过Puppeteer进行截图：




<!-- index.html -->
<!DOCTYPE html>
<html>
<head>
    <title>Crawler Visualization</title>
    <script src="https://cdn.jsdelivr.net/npm/chart.js"></script>
</head>
<body>
    <canvas id="myChart" width="400" height="400"></canvas>
    <script>
        var ctx = document.getElementById('myChart').getContext('2d');
        var myChart = new Chart(ctx, {
            type: 'bar', // 或者 'line', 'pie', 等等
            data: {
                // 数据对象
            },
            options: {
                // 图表选项
            }
        });
    </script>
</body>
</html>

确保你的爬虫逻辑和可视化图表的数据与你的应用的需求相匹配。这个例子只是一个简单的框架，你需要根据实际的爬虫和可视化需求来填充细节。

Jsoup爬虫——自学习梳理

2024-08-23




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
 
public class JsoupCrawlerExample {
    public static void main(String[] args) {
        String url = "http://example.com"; // 替换为目标网站
        try {
            Document document = Jsoup.connect(url).get();
            Elements elements = document.select("div.class > p"); // 选择想要爬取的元素
 
            for (Element element : elements) {
                System.out.println(element.text()); // 打印元素的文本内容
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这段代码使用了Jsoup库来实现一个简单的网页爬虫。首先，我们使用Jsoup.connect()方法连接到指定的网址，并使用.get()方法获取该网页的Document对象。然后，我们使用Document对象的select()方法选择我们想要爬取的元素，这里使用的是CSS选择器。最后，我们遍历选择到的元素，并打印它们的文本内容。这个例子展示了如何使用Jsoup库进行基本的网页爬取。

＜爬虫部署,进阶Docker＞----第三章 Docker的版本命令

2024-08-23

在Docker中，有一些命令可以帮助我们管理和操作Docker的版本。以下是一些常用的命令和示例：

查看Docker版本

Docker版本可以通过docker version命令查看。这个命令可以展示Docker客户端和服务端的版本信息。




docker version

查看Docker详细信息

如果你想看到更详细的Docker信息，可以使用docker info命令。这个命令展示的信息比docker version更加详细，包括存储和运行时的配置。




docker info

查看Docker的服务版本

如果你想看到Docker服务的版本，可以使用docker server version命令。这个命令展示的是Docker守护进程的版本，而不是客户端的版本。




docker server version

查看Docker的日志

如果你想看到Docker的日志，可以使用docker logs命令。这个命令可以用来查看Docker守护进程的日志。




docker logs $(docker ps -q)

更新Docker

如果你需要更新Docker，可以使用包管理器来更新Docker。例如，在Ubuntu上，你可以使用apt-get来更新Docker。




sudo apt-get update
sudo apt-get upgrade docker-ce

重启Docker服务

如果你需要重启Docker服务，可以使用systemctl命令。




sudo systemctl restart docker

这些命令都是Docker管理员应该知道的基本命令，它们可以帮助你管理和部署Docker环境。

Python淘宝家用电器爬虫数据可视化分析大屏全屏系统

2024-08-23

由于提供的代码已经是一个完整的示例，并且涉及到的技术较为复杂，下面我将提供一个简化版本的示例，用于演示如何使用Python进行网页爬虫，并对数据进行基本的可视化分析。




import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
 
# 设置网页请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
# 发送请求，获取网页内容
def get_html(url):
    response = requests.get(url, headers=headers)
    return response.text
 
# 解析网页，提取需要的数据
def parse_data(html):
    soup = BeautifulSoup(html, 'lxml')
    data = soup.find_all('div', class_='row')
    items = [[item.find('div', class_='pic').a.img['alt'],
              item.find('div', class_='price').strong.text,
              item.find('div', class_='deal-cnt').text.strip()] for item in data]
    return items
 
# 保存数据到CSV文件
def save_to_csv(data, file_name):
    df = pd.DataFrame(data, columns=['商品名称', '价格', '成交量'])
    df.to_csv(file_name + '.csv', index=False, encoding='utf-8-sig')
 
# 绘制商品价格分布图
def plot_price_distribution(data):
    prices = [float(item[1].replace('¥', '').replace(',', '')) for item in data]
    plt.hist(prices, bins=100)
    plt.title('商品价格分布')
    plt.xlabel('价格')
    plt.ylabel('数量')
    plt.show()
 
# 主函数
def main():
    url = 'https://s.taobao.com/search?q=%E8%B4%B7%E5%90%88%E7%94%B5%E5%99%A8&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306'
    html = get_html(url)
    data = parse_data(html)
    save_to_csv(data, '淘宝家用电器数据')
    plot_price_distribution(data)
 
if __name__ == '__main__':
    main()

这段代码实现了获取网页内容、解析数据、保存数据到CSV文件以及绘制商品价格分布图的基本功能。需要注意的是，由于爬取的是淘宝的数据，所以在请求头部需要使用合法的User-Agent，并遵守淘宝的爬虫政策。此外，因为涉及到网络请求，所以在解析数据时需要确保选取的数据节点是稳定的。在实际应用中，可以根据需要对代码进行扩展和优化，例如增加异常处理、使用异步IO提高效率、使用代理和IP池等反爬虫策略等。