分类后端技术下的文章

python 爬虫贪婪算法和非贪婪算法 match()

System

2024-08-27

所有,爬虫

在Python中，re模块是用来使用正则表达式的。re模块提供了一个名为re.match()的函数，它用于在字符串的开始位置匹配一个模式，而这个函数在处理正则表达式时，有贪婪算法和非贪婪算法两种处理方式。

贪婪算法：

在正则表达式中，"贪婪"是指匹配尽可能多的字符。默认情况下，"*"，"+"，"?"，"{m,n}"等限定符都是贪婪的。例如，正则表达式"<.*>"会匹配从开始标签直到结束标签的最长可能匹配。

非贪婪算法：

在正则表达式中，"非贪婪"是指匹配尽可能少的字符。为了做到这一点，在"*"，"+"，"?"，"{m,n}"等限定符后面加上"?"。例如，正则表达式"<.*?>"会匹配从开始标签直到结束标签的最短可能匹配。

下面是一些使用python的re模块的match()函数的例子：

贪婪算法：




import re
 
text = "<div>Hello World!</div>"
match = re.match("<.*>", text)
print(match.group())

输出：<div>Hello World!</div>

非贪婪算法：




import re
 
text = "<div>Hello World!</div>"
match = re.match("<.*?>", text)
print(match.group())

输出：<div>

在上述例子中，我们使用了"<.*>"和"<.*?>"作为正则表达式，这两个正则表达式的主要区别就在于贪婪算法和非贪婪算法的不同。

- 阅读更多 -

Python青海西宁二手房源爬虫数据可视化分析大屏全屏系统开题报告

System

2024-08-27

所有,爬虫

由于提供的开题报告是一个很长的文档，我将提供一个简化版本的Python代码示例，用于模拟数据可视化分析的核心功能。




import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
 
# 模拟数据可视化分析的核心功能
def visualize_analysis(data):
    # 数据探索：查看房源数量的变化
    plt.figure(figsize=(12, 6))
    sns.lineplot(x="年份", y="房源数量", data=data)
    plt.title("房源数量随时间变化")
    plt.xlabel("年份")
    plt.ylabel("房源数量")
    plt.show()
 
    # 统计分析：分析每个区域的平均价格
    plt.figure(figsize=(12, 6))
    sns.barplot(x="区域", y="平均价格", data=data)
    plt.title("每个区域的平均价格")
    plt.xlabel("区域")
    plt.ylabel("平均价格")
    plt.show()
 
# 示例数据
example_data = {
    "年份": [2015, 2016, 2017, 2018],
    "房源数量": [300, 320, 350, 380],
    "区域": ["西海岸", "城东", "青山", "高新区"],
    "平均价格": [200, 220, 230, 240]
}
 
# 将字典转换为DataFrame
data_df = pd.DataFrame(example_data)
 
# 执行数据可视化分析
visualize_analysis(data_df)

这段代码模拟了一个简单的数据可视化分析过程，使用了matplotlib和seaborn库来创建图表。这个过程通常是数据清洗、数据探索、统计分析和可视化的一部分。在这个例子中，我们创建了两个简单的图表：一个是显示房源数量随时间变化的折线图，另一个是显示不同区域平均价格的条形图。这个过程是爬虫数据分析的一个基本步骤，可以帮助理解数据的特征和趋势。

- 阅读更多 -

python——模块导入

System

2024-08-27

所有,python

在Python中，可以使用import语句来导入模块。例如，要导入内置的math模块，可以这样做：




import math

如果只需要导入模块中的特定函数或变量，可以使用from...import...语句：




from math import sqrt

这样，就只会导入math模块中的sqrt函数。

如果要导入模块并给其指定别名，可以使用as关键字：




import math as m
from math import sqrt as sq

在这里，math模块被导入并分别赋予了m和sq别名。

还可以使用importlib模块在运行时动态导入模块：




import importlib
math = importlib.import_module('math')

这样，就可以在运行时根据变量名来导入相应的模块。

- 阅读更多 -

Python批量提取多个csv文件内指定行数据并汇总在新csv文件内

System

2024-08-27

所有,python

以下是一个Python脚本示例，用于从多个CSV文件中提取指定行的数据，并将结果保存到一个新的CSV文件中。




import os
import csv
from glob import glob
 
# 设置源CSV文件路径、目标CSV文件路径和需要提取的行索引
source_csv_folder = 'path/to/csv/files'  # CSV文件所在文件夹路径
target_csv_file = 'path/to/output.csv'  # 目标CSV文件路径
rows_to_extract = [0, 2]  # 需要提取的行索引列表，例如提取第0行和第2行
 
# 从所有CSV文件中提取指定行，并保存到目标CSV文件
with open(target_csv_file, 'w', newline='') as out_csv:
    csv_writer = csv.writer(out_csv)
    for file_path in glob(os.path.join(source_csv_folder, '*.csv')):
        with open(file_path, 'r') as in_csv:
            csv_reader = csv.reader(in_csv)
            for row_index, row in enumerate(csv_reader):
                if row_index in rows_to_extract:
                    csv_writer.writerow(row)

确保将source_csv_folder变量设置为包含CSV文件的文件夹路径，target_csv_file设置为要创建的新CSV文件的路径，rows_to_extract设置为你想要提取的行索引列表。

此脚本会遍历指定文件夹内所有CSV文件，提取指定的行，并将结果保存到target_csv_file指定的新CSV文件中。

- 阅读更多 -

【python】PyQt5可视化开发，鼠标键盘实现联动界面交互逻辑与应用实战

System

2024-08-27

所有,python




from PyQt5.QtWidgets import QApplication, QMainWindow, QVBoxLayout, QPushButton
from PyQt5.QtCore import Qt
 
class MainWindow(QMainWindow):
    def __init__(self):
        super().__init__()
        self.setWindowTitle("鼠标键盘联动示例")
        self.setGeometry(100, 100, 400, 200)
        self.layout = QVBoxLayout()
 
        self.button = QPushButton("点击我")
        self.button.clicked.connect(self.button_clicked)
 
        self.setCentralWidget(self.button)
 
    def button_clicked(self):
        # 鼠标点击事件处理逻辑
        print("按钮被点击")
 
 
def main():
    app = QApplication([])
    window = MainWindow()
    window.show()
    app.exec_()
 
 
if __name__ == '__main__':
    main()

这段代码创建了一个PyQt5应用，其中包含一个主窗口和一个按钮。按钮被点击时，会触发button_clicked方法，并在控制台打印出相应的信息。这个简单的例子展示了如何在PyQt5中处理鼠标和键盘事件，并实现与用户界面的交互。

- 阅读更多 -

Springcloud实战之自研分布式id生成器

System

2024-08-27

所有,分布式

以下是一个简化的分布式ID生成器的核心函数示例，使用了Spring Cloud的@EnableDiscoveryClient注解来注册服务并使用RestTemplate来调用服务。




import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.cloud.client.discovery.DiscoveryClient;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.client.RestTemplate;
 
@RestController
@EnableDiscoveryClient
public class IdController {
 
    private static final String SERVICE_ID = "id-generator";
 
    @Autowired
    private DiscoveryClient discoveryClient;
 
    @Autowired
    private RestTemplate restTemplate;
 
    @GetMapping("/id")
    public Long getId(@RequestParam(value = "count", defaultValue = "1") int count) {
        // 获取服务实例
        String serviceInstance = discoveryClient.getInstances(SERVICE_ID).get(0).getUri().toString();
        // 调用服务获取ID
        return restTemplate.getForObject(serviceInstance + "/id?count={count}", Long.class, count);
    }
}

这段代码定义了一个REST控制器，它使用服务发现客户端查找ID生成器服务的实例，并使用RestTemplate调用该服务以获取新的ID。这里假设ID生成器服务的URL是/id?count={count}。这个示例展示了如何在微服务架构中使用服务发现和客户端负载均衡来调用其他服务。

- 阅读更多 -

二面高德Java岗，问了一堆源码，微服务，分布式，Redis，心累

System

2024-08-27

所有,分布式

面试高德时遇到源码问题、微服务、分布式、Redis等问题可能是正常的。高德是一家互联网地图服务公司，其架构可能使用了多种先进技术。以下是一些可能的解决方案或者思路：

源码问题：确保你了解Java多线程和网络编程。熟悉Spring框架和常用设计模式可以加分。如果面试官问到具体框架（如Spring Cloud、Dubbo等）的源码，你需要确保对该框架有深入了解。
微服务：微服务架构设计是必备技能。了解服务拆分的原则、如何通过API管理服务间通信、服务发现和负载均衡等。
分布式：熟悉分布式系统的设计和实现，包括CAP原则、分布式事务、分布式锁等。
Redis：了解Redis的数据结构、应用场景、分布式锁实现、缓存淘汰机制等。
心累：保持积极态度，面试不会超过两小时，合理安排时间，有时候可以主动引导面试官到你熟悉的领域。如果有可能，可以请求面试官询问具体的技术问题，而不是所有的问题都是广泛的。

为了应对这样的面试，你可以：

复习相关的技术和框架，对常见的问题做好准备。
参加线上或者线下的技术研讨会，提高自己的知识和经验。
阅读相关的书籍和文章，如《Red Hat JBoss Fuse 实战》等。
在开源项目中实践和学习，如Apache Camel等。
参加在线编程挑战，如LeetCode、HackerRank等。

记住，面试不只是对技术的考验，也是对个人沟通和解决问题能力的考验。保持自信，展现你的知识广度和深度，你就有很大的机会通过面试。

- 阅读更多 -

分布式session共享配置

System

2024-08-27

所有,分布式

在分布式系统中实现session共享，可以使用以下几种方法：

使用Redis等缓存服务器：配置多个应用服务器共享同一个Redis实例作为session存储。
使用Spring Session和Redis：通过Spring Session抽象层，可以轻松实现session的共享。
使用容器管理session（如Tomcat）：大多数Java EE容器支持将session存储在JNDI资源中，如数据库。
使用Spring Session的Cookie模式：通过将session数据加密并存储在cookie中，应用可以不需要共享session状态。

以下是Spring Session + Redis的配置示例：




<!-- 添加Spring Session数据Redis的依赖 -->
<dependency>
    <groupId>org.springframework.session</groupId>
    <artifactId>spring-session-data-redis</artifactId>
    <version>版本号</version>
</dependency>
 
<!-- 配置Redis作为session存储 -->
<bean id="redisHttpSessionConfiguration"
      class="org.springframework.session.data.redis.config.annotation.web.http.RedisHttpSessionConfiguration">
    <property name="maxInactiveIntervalInSeconds" value="1800"/>
</bean>




@Configuration
@EnableRedisHttpSession(maxInactiveIntervalInSeconds = 1800)
public class SessionConfig {
}

确保已经配置好Redis服务器，并在application.properties或application.yml中配置Redis连接信息。




# Redis服务器的地址和端口
spring.redis.host=localhost
spring.redis.port=6379
# （可选）连接池设置
spring.redis.pool.max-active=8
spring.redis.pool.max-idle=8
spring.redis.pool.min-idle=0
spring.redis.pool.max-wait=-1

以上配置将使得所有应用服务器实例共享同一个Redis实例中的session数据。

- 阅读更多 -

【数仓】DataX软件安装及配置，从mysql同步到hdfs

System

2024-08-27

所有,mysql

DataX 是一款由阿里巴巴开源的大数据同步工具，主要用于在各种异构数据源间高效地完成数据的同步工作。以下是如何安装和配置 DataX，以及如何使用 DataX 从 MySQL 同步数据到 HDFS 的简要步骤。

安装 DataX
- 下载地址：https://github.com/alibaba/DataX
- 解压到指定目录
配置 DataX
- 在 datax/job/ 目录下创建一个新的配置文件，例如 mysql2hdfs.json
编辑 mysql2hdfs.json 配置文件




{
    "job": {
        "setting": {
            "speed": {
                "channel": 1
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "your_mysql_username",
                        "password": "your_mysql_password",
                        "column": ["id", "name", "age"],
                        "splitPk": "id",
                        "connection": [
                            {
                                "table": ["your_table_name"],
                                "jdbcUrl": ["jdbc:mysql://your_mysql_host:3306/your_database"]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://your_hdfs_host:8020",
                        "fileType": "text",
                        "path": "/user/hive/warehouse/your_hdfs_target_table_path",
                        "fileName": "your_output_file_name",
                        "column": [
                            {
                                "name": "id",
                                "type": "int"
                            },
                            {
                                "name": "name",
                                "type": "string"
                            },
                            {
                                "name": "age",
                                "type": "int"
                            }
                        ],
                        "writeMode": "append",
                        "fieldDelimiter": ","
                    }
                }
            }
        ]
    }
}

运行 DataX
- 在 DataX 的根目录下，使用以下命令运行：




python datax/bin/datax.py job/mysql2hdfs.json

确保在运行之前已经安装了 Python 环境，并且 MySQL 和 HDFS 服务是可用的。以上步骤和配置文件仅作为示例，实际使用时需要根据实际情况调整配置，例如数据库的用户名、密码、表名、HDFS 的地址和端口等。

- 阅读更多 -

MySQL表的增删改查（CRUD）

System

2024-08-27

所有,mysql

以下是MySQL表的基本增删改查操作的示例代码：




-- 创建表
CREATE TABLE IF NOT EXISTS users (
    id INT AUTO_INCREMENT PRIMARY KEY,
    username VARCHAR(50) NOT NULL,
    email VARCHAR(100) NOT NULL
);
 
-- 插入数据
INSERT INTO users (username, email) VALUES ('user1', 'user1@example.com');
 
-- 查询数据
SELECT * FROM users;
 
-- 更新数据
UPDATE users SET username='user2' WHERE id=1;
 
-- 删除数据
DELETE FROM users WHERE id=1;

这段代码展示了如何创建一个简单的用户表，如何向表中插入一条新记录，如何查询表中的所有记录，如何更新记录，以及如何删除记录。这些操作是任何数据库驱动的应用程序的基础。

- 阅读更多 -