Tech Blog

2024-08-16

Vue 3 项目中可以通过多种方式来防止爬虫采集内容，以下是一些常见的策略：

动态内容加载：使用 v-if 或 v-show 来根据条件动态渲染内容，爬虫通常不会等待动态加载的内容。
图片内容：对于一些采集内容主要通过图片展示的页面，可以使用 canvas 将文字转换为图片。
移除或遮盖关键数据：使用 CSS 技术如 opacity: 0 或 position: absolute 将关键数据移出视口。
防止右键菜单：通过监听 contextmenu 事件并阻止默认行为来禁用右键菜单。
使用Captcha或者验证码：增加爬虫难度，使得爬虫在尝试采集内容前必须先解决验证。
服务端渲染（SSR）：对于SEO优化较好的页面，可以使用服务端渲染来生成静态HTML，减少客户端渲染的爬虫压力。
CORS设置：通过设置CORS（Cross-Origin Resource Sharing）策略，来限制其他网站的脚本访问你的资源。
WebSocket长轮询：通过WebSocket实现前后端全双工通信，而不是使用XHR或者Fetch轮询。

以下是一个简单的例子，展示如何在Vue 3中使用服务端渲染（SSR）来减少爬虫的采集风险：




// 安装vue-server-renderer
npm install vue-server-renderer
 
// 在服务器端入口文件 server-entry.js
import { createSSRApp } from 'vue'
import App from './App.vue'
 
export function createApp() {
  const app = createSSRApp(App)
  return { app }
}
 
// 服务器端入口文件 server.js
import { createSSRApp } from 'vue'
import { createServer } from 'vue-server-renderer'
import { createApp } from './server-entry.js'
 
const server = createServer(createApp().app)
 
server.listen(8080, () => {
  console.log('Server is running on http://localhost:8080')
})

服务端渲染会生成静态的HTML，减少了客户端渲染的依赖，从而减少爬虫采集的风险。同时，对于一些敏感数据，可以通过服务端直接返回空的HTML或者特定的占位符，进一步提高安全性。

- 阅读更多 -

Python数据风险案例54——人工智能热门概念股爬虫分析其价值(三因子模型)

System

2024-08-16

所有,爬虫




import pandas as pd
import numpy as np
import statsmodels.api as sm
from datetime import datetime
 
# 假设这是从股票网站爬取的数据，已经加载到DataFrame中
data = pd.read_csv('stock_data.csv', parse_dates=['date'])
 
# 选择需要的列
data = data[['date', 'close', 'volume']]
 
# 将数据按日期排序
data.sort_values('date', inplace=True)
 
# 计算每日收盘价的对数返回
data['log_ret'] = np.log(data['close'] / data['close'].shift(1))
 
# 选择过去10个交易日的平均每日成交量作为因子
data['vol_10'] = data['volume'].rolling(window=10).mean()
 
# 创建一个数据框，用于存储模型的结果
results = pd.DataFrame(columns=['intercept', 'beta', 'alpha', 'omega'])
 
# 遍历不同的时间窗口来测试三因子模型的参数
for lag in range(1, 11):
    X = sm.add_constant(data[['log_ret', 'vol_10']].shift(lag))
    results.loc[lag] = sm.OLS(data['log_ret'], X).fit().params
 
# 输出结果
print(results)

这段代码首先加载股票数据，然后计算每日的收盘价的对数返回，并创建一个新的列来表示过去10天平均的成交量。接着，代码遍历不同的时间窗口来拟合一个OLS模型，并存储模型的参数结果。最后，打印出结果。这个例子展示了如何使用Python进行简单的金融时间序列分析。

- 阅读更多 -

错误处理在网络爬虫开发中的重要性：Perl示例_引言

System

2024-08-16

所有,爬虫

在Perl中，网络爬虫开发中的错误处理可以通过内置的try和catch语句来实现。以下是一个简单的示例，展示了如何在Perl中处理可能发生的错误：




use strict;
use warnings;
use LWP::UserAgent;
use Try::Tiny;
 
my $ua = LWP::UserAgent->new;
my $url = 'http://example.com';
 
try {
    my $response = $ua->get($url);
    if ($response->is_success) {
        print $response->decoded_content;  # 处理响应内容
    } else {
        die "HTTP error code: ", $response->code, "\n",
            "Content: ", $response->content;
    }
} catch {
    my $error = $_;
    if ($error =~ /^HTTP error code: 404/) {
        print "页面未找到\n";
    } else {
        print "其他错误: $error\n";
    }
};

在这个示例中，我们使用了LWP::UserAgent来发送HTTP请求。然后，我们使用Try::Tiny模块的try块来包裹可能抛出异常的代码。如果在try块内部发生了异常，控制会转移到catch块，在那里我们可以根据捕获的错误信息采取相应的措施。这个例子展示了如何处理HTTP错误，并根据错误类型给出相应的响应。

- 阅读更多 -

爬虫笔记11——网页爬取数据写入csv

System

2024-08-16

所有,爬虫




import requests
from bs4 import BeautifulSoup
import csv
 
# 设置请求头信息，模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
def get_html(url):
    """
    获取网页的html内容
    """
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except requests.RequestException:
        return None
 
def parse_html(html):
    """
    解析网页，提取数据
    """
    soup = BeautifulSoup(html, 'lxml')
    data_list = soup.select('div.quote')
    for data in data_list:
        yield {
            '编号': data.select_one('div.number').text.strip(),
            '引用': data.select_one('div.quote').text.strip(),
            '来源': data.select_one('div.author').text.strip(),
        }
 
def save_to_csv(data_list, file_name):
    """
    将数据保存到csv文件
    """
    with open(file_name, 'w', newline='', encoding='utf-8') as file:
        writer = csv.DictWriter(file, fieldnames=['编号', '引用', '来源'])
        writer.writeheader()
        for data in data_list:
            writer.writerow(data)
 
def main():
    url = 'http://quotes.toscrape.com/'
    html = get_html(url)
    data_list = parse_html(html)
    save_to_csv(data_list, 'quotes.csv')
 
if __name__ == '__main__':
    main()

这段代码首先定义了请求头信息，用于模拟浏览器访问。然后定义了get_html函数来获取网页的HTML内容。parse_html函数用于解析HTML，提取数据。最后，save_to_csv函数将数据保存到CSV文件中。在main函数中，这些函数被组合起来完成数据爬取和保存的流程。

- 阅读更多 -

JavaScript逆向爬虫——使用Python模拟执行JavaScript

System

2024-08-16

所有,爬虫

要使用Python来模拟执行JavaScript代码，你可以使用PyMiniRacer库，这是一个JavaScript引擎，可以用来执行JavaScript代码。以下是一个简单的例子，展示如何使用PyMiniRacer执行一个简单的JavaScript函数。

首先，你需要安装PyMiniRacer：




pip install PyMiniRacer

然后，你可以使用以下代码来执行JavaScript代码：




from PyMiniRacer import py_mini_racer
 
# 创建JavaScript引擎实例
context = py_mini_racer.MiniRacer()
 
# 定义JavaScript代码
js_code = """
function add(a, b) {
    return a + b;
}
add(2, 3);
"""
 
# 执行JavaScript代码
result = context.eval(js_code)
print(result)  # 输出: 5

在这个例子中，我们创建了一个MiniRacer实例，然后定义了一个简单的JavaScript函数add，接着我们执行这个函数并打印结果。这个例子演示了如何使用Python来执行JavaScript代码，这对于处理一些动态网站或者需要执行客户端JavaScript逻辑的情况非常有用。

System

2024-08-16

所有,爬虫

由于提出的查询涉及的内容较多，我将提供一个简化的示例，展示如何使用Django框架创建一个简单的网站来可视化爬取的数据。




# 安装Django
# pip install django
 
# 创建项目和应用
# django-admin startproject myproject
# python manage.py startapp myapp
 
# myproject/myapp/models.py
from django.db import models
 
class TouristSpot(models.Model):
    name = models.CharField(max_length=100)
    location = models.CharField(max_length=100)
    description = models.TextField()
 
    def __str__(self):
        return self.name
 
# myproject/myapp/views.py
from django.shortcuts import render
from .models import TouristSpot
 
def home(request):
    spots = TouristSpot.objects.all()
    return render(request, 'home.html', {'spots': spots})
 
# myproject/myapp/urls.py
from django.urls import path
from .views import home
 
urlpatterns = [
    path('', home, name='home'),
]
 
# myproject/templates/home.html
<!DOCTYPE html>
<html>
<head>
    <title>Beijing Tourist Spots</title>
</head>
<body>
    <h1>Beijing Tourist Spots</h1>
    <ul>
        {% for spot in spots %}
        <li>{{ spot.name }} - {{ spot.location }}</li>
        {% endfor %}
    </ul>
</body>
</html>

这个简单的示例展示了如何使用Django模型来定义景点数据，视图函数来渲染数据，以及如何在HTML模板中循环显示数据。这个示例不包含爬虫代码，因为这个问题的重点是数据可视化，而爬虫通常是数据收集的一部分。实际应用中，爬虫代码会与这些Django组件配合工作，抓取数据并将其存储到模型中，然后通过视图和模板展示出来。

- 阅读更多 -

超简单的node爬虫小案例

System

2024-08-16

所有,爬虫




// 导入必要的模块
const puppeteer = require('puppeteer');
 
// 定义一个异步函数，使用Puppeteer进行网页爬取
async function simpleScraper(url) {
    // 启动浏览器
    const browser = await puppeteer.launch();
    // 打开新页面
    const page = await browser.newPage();
    // 导航到URL
    await page.goto(url);
    // 等待页面加载完成
    await page.waitForSelector('body');
    // 提取页面内容
    const content = await page.evaluate(() => document.body.innerText);
    // 打印页面内容
    console.log(content);
    // 关闭浏览器
    await browser.close();
}
 
// 使用函数爬取指定的网页
simpleScraper('https://example.com');

这段代码使用了Puppeteer库来创建一个简单的网页爬虫。函数simpleScraper接收一个URL作为参数，启动一个新的浏览器实例，打开一个新页面，导航到指定的URL，等待页面加载完成，提取页面内容，并在控制台输出页面的纯文本内容。最后关闭浏览器。这个例子展示了如何使用Puppeteer进行基本的网页爬取。

- 阅读更多 -

某宝之店铺id与旺旺号爬虫爬取

System

2024-08-16

所有,爬虫

由于涉及到爬取数据和网络请求，以下是一个简化的Python示例代码，使用了requests库来发送HTTP请求，以及parsel库来解析返回的HTML内容。




import requests
import parsel
 
def get_tb_shop_info(shop_url):
    headers = {
        'User-Agent': 'your_user_agent'
    }
    response = requests.get(shop_url, headers=headers)
    if response.status_code == 200:
        return parse_shop_info(response.text)
    else:
        return "Failed to retrieve data"
 
def parse_shop_info(html_content):
    selector = parsel.Selector(html_content)
    shop_id = selector.xpath('//input[@name="shop_id"]/@value').get()
    well_known_id = selector.xpath('//input[@name="well_known_id"]/@value').get()
    return {
        'shop_id': shop_id,
        'well_known_id': well_known_id
    }
 
# 示例店铺URL
shop_url = 'https://your_shop_page_url'
info = get_tb_shop_info(shop_url)
print(info)

请注意，由于爬虫涉及到法律和道德的问题，此代码仅供学习和研究目的使用。实际应用时，应确保遵守相关的法律法规，并尊重网站的robots.txt规则以及隐私政策。此外，如果爬取过于频繁，可能会导致账号被封禁或需要输入验证码，因此应合理设置爬取频率。

- 阅读更多 -

java Spring Boot2.7实现一个简单的爬虫功能

System

2024-08-16

所有,爬虫

以下是一个简单的Java Spring Boot应用程序，用于爬取一个网站的链接并打印出来。这个例子使用了Jsoup库来简化HTML解析的过程。

首先，你需要添加Jsoup的依赖到你的pom.xml文件中：




<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

然后，你可以创建一个简单的Spring Boot应用程序来实现这个爬虫：




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
 
@SpringBootApplication
public class SimpleCrawlerApplication {
 
    public static void main(String[] args) {
        SpringApplication.run(SimpleCrawlerApplication.class, args);
        crawlWebsite("http://example.com");
    }
 
    public static void crawlWebsite(String url) {
        try {
            Document document = Jsoup.connect(url).get();
            Elements links = document.select("a[href]");
 
            System.out.println("\nLinks found on the page:");
            for (Element link : links) {
                System.out.println(link.attr("abs:href"));
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这个应用程序启动后会连接到指定的URL，解析HTML，并打印出所有找到的链接。这个例子仅用于教学目的，实际的爬虫可能需要考虑更复杂的情况，如处理分页、登录验证、爬取策略、并发等。

- 阅读更多 -

Python高阶爬虫实战分析

System

2024-08-16

所有,爬虫




import requests
from bs4 import BeautifulSoup
 
def get_soup(url):
    """
    获取网页内容并解析为soup对象
    """
    response = requests.get(url)
    if response.status_code == 200:
        return BeautifulSoup(response.text, 'html.parser')
    else:
        return None
 
def find_image_urls(soup, image_dir):
    """
    在soup对象中查找图片链接并保存到文件
    """
    image_tags = soup.find_all('img', {'class': 'lazy load-img'})
    for tag in image_tags:
        image_url = tag['data-src']
        image_name = image_url.split('/')[-1]
        with open(f'{image_dir}/{image_name}', 'wb') as f:
            response = requests.get(image_url)
            f.write(response.content)
 
def main():
    """
    主函数，控制流程
    """
    base_url = 'https://www.example.com/page/'
    image_dir = 'images'
    soup = get_soup(base_url)
    if soup:
        find_image_urls(soup, image_dir)
 
if __name__ == '__main__':
    main()

这个简化的代码实例展示了如何使用Python的requests和BeautifulSoup库来获取网页内容，并从中提取图片链接，最终将图片保存到本地文件夹。注意，这个例子假设网页结构和需要抓取的图片类名不变，实际应用时可能需要根据网页实际情况进行相应的调整。

- 阅读更多 -