标签 Javascript 下的文章

2024-08-17

在NestJS中，自定义中间件可以通过创建一个类并使用@Injectable()装饰器标记为可注入的服务，然后实现NestMiddleware接口。

以下是一个简单的自定义中间件的例子：




import { Injectable, NestMiddleware } from '@nestjs/common';
 
@Injectable()
export class CustomMiddleware implements NestMiddleware {
  use(req: any, res: any, next: () => void) {
    // 在发送响应前的逻辑
    console.log('Custom middleware logic');
 
    // 必须调用next()以调用下一个中间件或路由处理程序
    next();
  }
}

然后在你的模块中配置这个中间件：




import { Module, NestModule, MiddlewareConsumer } from '@nestjs/common';
import { CustomMiddleware } from './custom.middleware';
 
@Module({
  // ... (controllers and providers)
})
export class AppModule implements NestModule {
  configure(consumer: MiddlewareConsumer) {
    consumer
      .apply(CustomMiddleware)
      .forRoutes('*'); // 这里可以指定具体的路由或路由组
  }
}

通过这种方式，你可以在请求-响应周期的特定阶段注入自定义逻辑，这样可以显著提高开发效率。在实际项目中，中间件可以用于日志记录、身份验证、权限校验、缓存、响应处理等多种场景。

- 阅读更多 -

Java使用jsoup爬虫获取网页信息

System

2024-08-17

所有,爬虫

以下是使用jsoup库获取网页信息的简单示例代码：




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
 
public class JsoupExample {
    public static void main(String[] args) {
        // 目标网页URL
        String url = "http://example.com";
 
        try {
            // 使用Jsoup连接网页
            Document doc = Jsoup.connect(url).get();
 
            // 使用选择器获取网页中的元素
            Elements elements = doc.select("title");
 
            // 假设网页中只有一个title元素，直接获取
            Element titleElement = elements.first();
 
            // 输出标题内容
            System.out.println("网页标题: " + titleElement.text());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这段代码使用了jsoup库来连接到指定的URL，并获取了该网页的<title>标签内容。在实际应用中，你可以根据需要修改选择器来获取其他元素的内容，例如获取段落、链接、图片等。

System

2024-08-17

所有,爬虫




import requests
from pyquery import PyQuery as pq
 
def get_app_info(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',
        'Referer': 'https://www.baidu.com/'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        doc = pq(response.text)
        name = doc('.app-name').text()
        desc = doc('.app-desc').text()
        download_url = doc('.download-btn').attr('href')
        return {
            'name': name,
            'description': desc,
            'download_url': download_url
        }
    return None
 
# 应用宝应用链接
app_url = 'https://app.baidu.com/app/16279872/1125883.html'
info = get_app_info(app_url)
if info:
    print(info)
else:
    print('Failed to retrieve app info.')

这段代码使用了requests库来发送HTTP请求，并使用pyquery库来解析HTML。代码定义了一个get_app_info函数，它接受一个应用宝应用链接作为参数，发送请求，解析页面，提取应用名称、描述和下载链接，并以字典形式返回。如果页面解析成功，则返回包含应用信息的字典；如果解析失败，则返回None。最后，代码演示了如何调用get_app_info函数并处理返回的数据。

- 阅读更多 -

爬虫之Boss直聘招聘数据采集（zp_stoken参数逆向分析JSRPC）

System

2024-08-17

所有,爬虫




import requests
import execjs
 
def get_zp_stoken(job_id):
    with open('boss.js', 'r', encoding='utf-8') as f:
        js_content = f.read()
    
    ctx = execjs.compile(js_content)
    zp_stoken = ctx.call('get_zp_stoken', job_id)
    return zp_stoken
 
def download_job_data(job_id, zp_stoken):
    params = {
        'jobId': job_id,
        'zp_stoken': zp_stoken
    }
    url = 'https://www.zhipin.com/job_detail/getJobDetail.json?'
    response = requests.get(url, params=params)
    return response.json()
 
# 示例使用
job_id = '123456789'  # 假设的职位ID
zp_stoken = get_zp_stoken(job_id)
job_data = download_job_data(job_id, zp_stoken)
print(job_data)

这段代码首先定义了一个get_zp_stoken函数，它加载了boss.js文件并使用execjs运行其中的JavaScript代码来获取zp_stoken。然后定义了一个download_job_data函数，它构造了请求参数并发送请求以下载招聘数据。最后，提供了使用这两个函数的示例代码。在实际应用中，需要替换boss.js文件的内容以及job_id的值。

- 阅读更多 -

爬虫技术：攻防对抗与数据采集——Web Js逆向篇

System

2024-08-17

所有,爬虫




// 假设我们已经有了一个加密的函数定义，例如：
var encryptedFunction = "function(t, e, r, i, n, a, o) { ... }";
 
// 使用正则表达式提取参数名
var params = encryptedFunction.match(/^function\s*[^(]*<span class="katex">\(\s*([^)]*)\)</span>/m)[1].replace(/\s+/g, '').split(',');
 
// 构造函数体
var funcBody = encryptedFunction.replace(/^function\s*[^(]*<span class="katex">\(\s*([^)]*)\)</span>\s*{/, '').slice(0, -1);
 
// 将参数和函数体结合，构造新的函数
var newFunction = new Function(params.join(', '), funcBody);
 
// 使用新函数
var result = newFunction(/* 参数 */);

这段代码展示了如何将一个加密的函数转换为可调用的JavaScript函数。它使用正则表达式来解析函数定义，并通过new Function动态构造了一个新的函数。在实际应用中，你需要根据具体的加密函数来调整正则表达式以正确解析函数定义。

- 阅读更多 -

爬虫笔记12——网页爬取数据写入json文件

System

2024-08-17

所有,爬虫




import requests
import json
import os.path
from bs4 import BeautifulSoup
 
def save_to_json(content, file_path):
    with open(file_path, 'w', encoding='utf-8') as f:
        json.dump(content, f, ensure_ascii=False, sort_keys=True, indent=4)
 
def crawl_and_save_data(url, file_path):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'lxml')
        data = []
        for tr in soup.find('tbody').children:
            if isinstance(tr, BeautifulSoup.Tag):
                tds = tr('td')
                data.append({
                    '序号': tds[0].text,
                    '名称': tds[1].text,
                    '地址': tds[2].text,
                    '类型': tds[3].text,
                    '状态': tds[4].text,
                    '更新时间': tds[5].text
                })
        save_to_json(data, file_path)
 
if __name__ == '__main__':
    base_url = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/'
    file_path = 'china_provinces.json'
    crawl_and_save_data(base_url, file_path)

这段代码首先定义了一个将内容写入json文件的函数save_to_json，然后定义了一个爬取网页数据并将其写入json文件的函数crawl_and_save_data。最后，在__main__块中调用了crawl_and_save_data函数来爬取指定的网页并将数据保存到json文件中。这个例子展示了如何将爬取的数据进行结构化处理并保存，为进一步的数据分析和处理打下了基础。

- 阅读更多 -

Android 本地网络小说爬虫，基于 jsoup 及 xpath

System

2024-08-17

所有,爬虫

以下是一个简化的示例代码，展示了如何使用jsoup和xpath解析一个简单的小说网站，并获取书籍信息。




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
 
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
 
public class NovelCrawler {
 
    public static void main(String[] args) {
        String url = "http://example.com/novels"; // 替换为小说章节列表页面的URL
        List<NovelInfo> novels = crawlNovelList(url);
        // 打印或保存novels信息
    }
 
    private static List<NovelInfo> crawlNovelList(String url) {
        List<NovelInfo> novelList = new ArrayList<>();
        try {
            Document doc = Jsoup.connect(url).get();
            Elements novelElements = doc.select("div.novel-list > a"); // 替换为实际的小说列表元素选择器
            for (Element novelElement : novelElements) {
                String novelUrl = novelElement.attr("abs:href");
                String novelName = novelElement.text();
                novelList.add(new NovelInfo(novelName, novelUrl));
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
        return novelList;
    }
 
    static class NovelInfo {
        String name;
        String url;
 
        public NovelInfo(String name, String url) {
            this.name = name;
            this.url = url;
        }
 
        // getters, setters, toString 等
    }
}

这段代码展示了如何使用jsoup库来从一个简单的网页中抓取小说列表信息。在实际应用中，你需要根据目标网站的HTML结构来调整选择器。这个例子中的novelElements需要替换为实际小说列表的选择器。同时，你需要为每本小说创建一个NovelInfo对象来保存其名称和URL。

请注意，爬取网络数据应遵守相关法律法规及网站的robots.txt规则，并尊重作者的版权。此外，过度频繁的爬取可能会导致IP封禁，因此应合理设置爬取频率。

- 阅读更多 -

js玩儿爬虫

System

2024-08-17

所有,爬虫

在JavaScript中编写一个简单的爬虫通常需要使用axios或request等库来发送HTTP请求，以及cheerio来解析返回的HTML内容。以下是一个简单的示例，用于抓取一个网页上的所有链接。

首先，确保安装所需的包：




npm install axios cheerio

然后，编写爬虫代码：




const axios = require('axios');
const cheerio = require('cheerio');
 
const url = 'http://example.com'; // 替换为你想爬取的网站
 
axios.get(url).then(response => {
    const $ = cheerio.load(response.data);
 
    $('a').each((i, link) => {
        const href = $(link).attr('href');
        console.log(href);
    });
}).catch(error => {
    console.error('Error fetching the webpage:', error);
});

这段代码会输出从指定网页上抓取的所有链接。你可以根据需要修改选择器，以抓取不同的数据，例如图片、标题等。

请注意，爬虫应该遵守robots.txt协议，并在允许的范围内爬取数据，避免对网站造成过大压力或违反版权法律。

- 阅读更多 -

【Python】json文件的读取

System

2024-08-17

所有,python

在Python中，可以使用json模块来读取JSON文件。以下是一个简单的例子：




import json
 
# 假设有一个名为data.json的文件
json_file_path = 'data.json'
 
# 读取JSON文件
with open(json_file_path, 'r', encoding='utf-8') as file:
    data = json.load(file)
 
# 现在data包含了JSON文件中的数据，可以按需使用
print(data)

确保data.json文件存在于脚本运行的同一目录中，或者提供正确的文件路径。如果JSON文件中包含非ASCII字符，请确保正确设置文件的编码（这里使用的是'utf-8'）。

- 阅读更多 -

JavaScript 空数组的 every() 方法详解

System

2024-08-17

所有,python

every 方法为数组中的每一个元素执行一次提供的函数，直到它找到一个使函数返回 false 的元素。如果发现一个这样的元素，every 方法将立即返回 false，否则返回 true。

下面是 every 方法的基本用法示例：




// 定义一个数组
const numbers = [1, 2, 3, 4, 5];
 
// 使用 every 方法检查数组中的所有元素是否都大于 0
const allPositive = numbers.every((num) => num > 0);
 
console.log(allPositive); // 输出: true
 
// 使用 every 方法检查数组中的所有元素是否都小于 5
const allLessThanFive = numbers.every((num) => num < 5);
 
console.log(allLessThanFive); // 输出: false

在这个例子中，every 方法检查数组 numbers 中的每个元素是否都大于 0，结果返回 true。然后又检查是否所有元素都小于 5，结果返回 false。

- 阅读更多 -