分类爬虫下的文章

【Python爬虫----加密解密】爬虫JS逆向时Python的加密解密，编码（MD5,AES,DES,RSA,base64,UrlEncode等）

2024-08-19

在Python中解密由JavaScript加密的数据，通常需要确定加密的算法和密钥。以下是一个使用PyCryptodome库解密AES算法的示例：

首先，安装PyCryptodome库：




pip install pycryptodome

然后，使用以下代码解密AES加密的数据：




from Crypto.Cipher import AES
from Crypto.Random import get_random_bytes
 
# 假设这是你已知的密钥和初始向量
key = b'1234567890123456'  # 密钥长度必须是16、24或32字节
iv = b'1234567890123456'  # 初始向量长度必须是16字节
 
# 加密的数据样例（16字节的整数倍）
encrypted_data = b'...'
 
# 创建AES解密对象
cipher = AES.new(key, AES.MODE_CBC, iv)
 
# 解密数据
decrypted_data = cipher.decrypt(encrypted_data)
 
# 删除填充（如果有PKCS#7填充）
decrypted_data = pad(decrypted_data)
 
print(decrypted_data)

注意：以上代码假设你已知密钥和初始向量。在实际情况中，你需要从JavaScript代码中分析或猜测这些值。解密过程可能需要对JavaScript加密代码进行详细分析，这涉及到逆向工程JavaScript加密算法。

- 阅读更多 -

python七大爬虫程序

System

2024-08-19

所有,爬虫

Python 爬虫程序可以用来抓取网页数据，以下是一些常见的Python爬虫框架和示例代码：

使用requests库和BeautifulSoup库：




import requests
from bs4 import BeautifulSoup
 
url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
 
# 提取数据
data = soup.find_all('div', {'class': 'my-data'})

使用Scrapy框架：




# 安装Scrapy
pip install scrapy
 
# 创建Scrapy项目和爬虫
scrapy startproject myproject
cd myproject
scrapy genspider myspider example.com

在myspider.py中编写爬虫逻辑：




import scrapy
 
class MySpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']
 
    def parse(self, response):
        # 提取数据
        for div in response.css('div.my-data'):
            yield {
                'data': div.css('a::text').extract_first(),
            }
 
        # 跟进下一页链接
        next_page_url = response.css('a.next::attr(href)').extract_first()
        if next_page_url is not None:
            yield response.follow(next_page_url, self.parse)

使用Selenium库进行JavaScript渲染的网页爬取：




from selenium import webdriver
 
driver = webdriver.Chrome()
driver.get('http://example.com')
 
# 获取JavaScript渲染后的页面源码
html_content = driver.page_source

使用aiohttp库进行异步爬取：




import aiohttp
from bs4 import BeautifulSoup
 
async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()
 
async def main():
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, 'http://example.com')
        soup = BeautifulSoup(html, 'html.parser')
        # 提取数据
        data = soup.find_all('div', {'class': 'my-data'})
 
# 运行在 asyncio 事件循环中
import asyncio
loop = asyncio.get_event_loop()
loop.run_until_complete(main())

使用pyspider 框架：




# 安装pyspider
pip install pyspider
 
# 运行pyspider
pyspider all

在Web界面上创建项目，并编写爬虫脚本。

使用Google的goolgeapis进行爬取
使用youtube-dl进行视频或音频的爬取

这些方法可以用来爬取网页数据，具体使用哪种取决于网站的结构和你的需求。每种方法都有优点和适用范围，需要根据实际情况选择。

- 阅读更多 -

【爬虫基础】第2讲使用Urllib库创建第一个爬虫程序

System

2024-08-19

所有,爬虫




import urllib.request
 
# 目标URL
url = 'http://example.com/'
 
# 使用urllib.request.urlopen打开URL
response = urllib.request.urlopen(url)
 
# 读取响应内容
html = response.read()
 
# 将读取的内容转换为字符串
html_string = html.decode("utf-8")
 
# 打印网页内容
print(html_string)

这段代码使用了urllib.request库来打开一个网页，并读取了其内容。然后将读取的内容转换为字符串并打印出来。这是编写爬虫程序的基础，可以教会你如何使用Python进行基本的网络请求。

- 阅读更多 -

Python：黑板课爬虫闯关第三关

System

2024-08-19

所有,爬虫

第三关的爬虫通常涉及到JavaScript动态渲染的内容，这就需要使用像Selenium这样的工具来模拟浏览器行为。以下是一个使用Python和Selenium的示例代码，用于解决黑板课第三关的爬虫问题：




from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
 
# 初始化WebDriver
driver = webdriver.Chrome()
 
# 打开黑板课第三关的网页
driver.get('https://www.heibanke.com/lesson/crawler_ex03/')
 
# 等待页面加载完成
wait = WebDriverWait(driver, 10)
 
# 输入用户名和密码
input_username = wait.until(EC.presence_of_element_located((By.ID, 'username')))
input_password = wait.until(EC.presence_of_element_located((By.ID, 'password')))
input_username.send_keys('your_username')
input_password.send_keys('your_password')
 
# 模拟点击登录按钮
login_button = wait.until(EC.element_to_be_clickable((By.ID, 'login-button')))
login_button.click()
 
# 等待动态内容加载完成
time.sleep(5)  # 通常这里需要一些时间让页面正确加载，可以通过观察网络请求来优化这个时间
 
# 获取动态渲染后的内容
content = driver.find_element_by_id('content').text
 
# 打印内容
print(content)
 
# 关闭浏览器
driver.quit()

请确保在运行此代码之前已经安装了Selenium库和ChromeDriver，并且将其放置在系统的PATH中。此外，请替换 'your_username' 和 'your_password' 为实际的用户名和密码。这段代码将打开黑板课第三关的登录页面，输入用户名和密码后登录，并获取动态渲染后的内容。

- 阅读更多 -

Python爬取微博（APP）榜单爬虫及数据可视化

System

2024-08-19

所有,爬虫




import requests
import json
import pandas as pd
 
# 微博App榜单API
def get_weibo_ranking(ranking_type, start_index=0, end_index=20):
    url = 'https://m.weibo.cn/api/container/getIndex?containerid=107603{}&page={}'
    ranking_data = []
    for page in range((end_index - start_index) // 10 + 1):
        response = requests.get(url.format(ranking_type, page))
        data = json.loads(response.text[18:-1])
        ranking_data.extend(data['data']['cards'])
    return ranking_data
 
# 获取微博用户信息
def get_user_info(user_ids):
    user_info = {}
    for id in user_ids:
        url = f'https://m.weibo.cn/api/container/getIndex?containerid=230410{id}'
        response = requests.get(url)
        data = json.loads(response.text[18:-1])
        user_info[id] = data['data']['cards'][0]['user']['screen_name']
    return user_info
 
# 保存数据到CSV文件
def save_to_csv(data, filename):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False)
 
# 示例使用
if __name__ == '__main__':
    # 获取原创榜单用户ID列表
    original_ranking = get_weibo_ranking(107603380, 0, 20)
    user_ids = [card['user']['id'] for card in original_ranking]
    
    # 获取用户昵称
    user_nicknames = get_user_info(user_ids)
    
    # 整理数据
    ranking_data = [
        {
            'ranking': index + 1,
            'user_id': user_id,
            'nickname': user_nicknames.get(user_id),
            'weibo_num': card['mblog_num'],
            'follows_num': card['follows_num'],
            'fans_num': card['fans_num'],
        }
        for index, (user_id, card) in enumerate(zip(user_ids, original_ranking))
    ]
    
    # 保存数据到CSV文件
    save_to_csv(ranking_data, 'weibo_original_ranking.csv')

这段代码提供了一个简化版本的微博原创榜单爬取方法，并演示了如何使用Python进行简单的数据爬取和保存。虽然这个例子没有包含完整的爬虫教程，但它展示了如何使用Python进行数据爬取和处理，这对于学习爬虫技术的开发者来说是一个很好的起点。

2024-08-19




import weibo
import os
import requests
 
# 初始化微博相册API
wb = weibo.APIClient(app_key='你的App Key', app_secret='你的App Secret', redirect_uri='你的回调URL')
 
# 获取授权链接并打印，用户需要手动在浏览器中访问该链接进行授权
auth_url = wb.get_authorize_url()
print(f'请在浏览器中访问以下链接以获取授权码: {auth_url}')
 
# 用户在浏览器中完成授权后，输入授权码进行授权
auth_code = input('请输入授权码: ')
wb.authorize(auth_code)
 
# 获取用户的UID
uid = input('请输入用户的UID: ')
 
# 获取用户相册的相册列表
albums_response = wb.get(f'/album/list_album.json?uid={uid}')
album_ids = [album['album_id'] for album in albums_response['albums']]
 
# 遍历每个相册并保存图片
for album_id in album_ids:
    os.makedirs(f'相册/{album_id}', exist_ok=True)
    photos_response = wb.get(f'/album/list_photo.json?album_id={album_id}')
    for photo in photos_response['photos']:
        photo_url = photo['photo_url']
        response = requests.get(photo_url)
        file_path = f'相册/{album_id}/{photo["photo_id"]}.jpg'
        with open(file_path, 'wb') as file:
            file.write(response.content)
        print(f'图片 {photo_url} 已保存至 {file_path}')

这段代码首先初始化了微博相册API，然后用户需要手动在浏览器中访问授权链接进行授权，授权完成后可以获取用户相册的相册列表，并遍历每个相册中的图片，将图片保存到本地文件夹中。这个过程展示了如何使用微博API进行数据抓取，并且是进行网络爬虫时的一个常见示例。

- 阅读更多 -

爬虫获取彼岸网数据

System

2024-08-19

所有,爬虫

爬取彼岸网数据需遵守反爬机制，以下是一个简单的示例，使用Python的requests库获取网页数据。




import requests
 
url = 'https://www.biee.com.cn/list/163.html'  # 示例URL，请替换为您要爬取的具体网页
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
try:
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        print('Success:', response.text)
    else:
        print('Failed to retrieve data. Status code:', response.status_code)
except requests.exceptions.RequestException as e:
    print('Error:', e)

请注意，这段代码仅用作学习目的。实际爬取数据时，应确保遵守网站的robots.txt协议，以及查看是否有明确的授权协议，并且应考虑使用代理、设置合理的请求间隔，以免对网站造成过度访问，从而可能被封禁。

- 阅读更多 -

爬虫爬取的csv文件在excel中出现乱码问题的解决方法

System

2024-08-19

所有,爬虫

乱码问题通常是由于编码不一致导致的。为了解决在Excel中出现的乱码问题，你可以尝试以下步骤：

确认CSV文件的编码格式（通常是UTF-8或者GBK）。
在Excel中打开CSV文件前，将Excel的默认编码设置为与CSV文件相匹配的编码。
如果问题依旧存在，尝试将CSV文件另存为其他编码格式，并在Excel中打开新的文件。
如果你知道原始数据的编码格式，可以使用文本编辑器或编码转换工具将CSV文件转换为Excel能够正确识别的编码格式。

以下是一个简单的Python代码示例，用于将CSV文件转换为Excel能够正常打开的格式：




import pandas as pd
 
# 读取CSV文件
df = pd.read_csv('your_file.csv', encoding='原始编码格式')
 
# 将数据帧保存为Excel文件
df.to_excel('your_file.xlsx', index=False)

确保替换your_file.csv为你的CSV文件名，并将原始编码格式替换为CSV文件实际的编码格式。如果不确定原始编码格式，可以尝试常用的编码格式，如UTF-8或GBK。如果转换后仍然乱码，可能需要进一步检查数据的特殊字符或者使用其他工具进行处理。

- 阅读更多 -

（python3爬虫二）Linux安装谷歌浏览器以及对应版本驱动程序

System

2024-08-19

所有,爬虫

在Linux系统中安装谷歌浏览器以及对应版本的驱动程序可以通过以下步骤进行：

首先，打开终端。
添加Google Chrome官方提供的仓库：




wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb

安装下载的.deb文件：




sudo dpkg -i google-chrome-stable_current_amd64.deb

如果在安装过程中遇到依赖问题，执行以下命令来修复：




sudo apt-get install -f

安装ChromeDriver。首先，确定Chrome浏览器的版本：




google-chrome --version

访问ChromeDriver下载页面，根据Chrome浏览器的版本下载对应版本的ChromeDriver。
解压下载的ChromeDriver压缩包，并将其放置在系统路径中，例如/usr/local/bin/：




sudo mv chromedriver /usr/local/bin/

给予可执行权限：




sudo chmod +x /usr/local/bin/chromedriver

完成以上步骤后，您应该能够在Linux系统上运行Google Chrome浏览器以及对应版本的ChromeDriver了。

- 阅读更多 -

爬虫系列----Python解析Json网页并保存到本地csv

System

2024-08-19

所有,爬虫




import requests
import json
import csv
 
# 定义一个函数来解析JSON数据并将其保存到CSV文件中
def save_to_csv(json_data, filename):
    # 打开文件进行写入
    with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
        # 创建csv字典写入器
        writer = csv.DictWriter(csvfile, fieldnames=json_data[0].keys())
        # 写入表头
        writer.writeheader()
        # 写入数据
        writer.writerows(json_data)
 
# 定义要获取的URL
url = 'http://example.com/api/data'
 
# 发送HTTP请求
response = requests.get(url)
 
# 确认请求成功
if response.status_code == 200:
    # 加载JSON数据
    data = json.loads(response.text)
    
    # 解析数据并保存到CSV
    save_to_csv(data, 'output.csv')

这段代码首先定义了一个函数save_to_csv，它接受JSON数据和文件名作为参数，然后将JSON数据写入到CSV文件中。代码中包含了错误处理，以确保在请求数据时如果出现问题可以给出相应的提示。

- 阅读更多 -