分类后端技术下的文章

2024-08-25

ClickVisual是一款面向ClickHouse的数据可视化工具，它提供了直观的用户界面，使得用户能够快速分析数据并创建交互式仪表板。

要使用ClickVisual，你需要先安装并运行ClickHouse数据库，然后安装ClickVisual。以下是基本的安装步骤：

安装ClickHouse:
- 根据你的操作系统，从ClickHouse官方网站下载并安装。
安装ClickVisual:
- 从ClickVisual官方网站下载安装程序。
- 根据操作系统的不同，使用对应的命令安装。

安装完成后，你可以通过浏览器访问ClickVisual的界面，并连接到你的ClickHouse数据库。以下是连接ClickHouse数据库的基本步骤：

打开ClickVisual。
在登录界面输入你的用户名和密码，或者注册新账号。
登录后，点击顶部菜单的“数据库管理”。
在数据库管理界面，点击“添加数据库”按钮。
填写ClickHouse数据库的连接信息，包括主机地址、端口、用户名和密码。
测试连接，如果成功，你就可以开始使用ClickVisual进行数据可视化了。

具体的可视化步骤取决于你的需求，但通常包括以下步骤：

选择数据库和表。
设计查询以获取所需数据。
选择可视化类型（如表格、图表等）。
调整图表和数据选项以创建所需的可视化效果。
将可视化组件添加到仪表板。
保存并分享仪表板。

以下是一个简单的SQL查询示例，用于从ClickHouse中获取数据：




SELECT event_date, count(*) 
FROM events 
WHERE event_date >= '2023-01-01' 
GROUP BY event_date 
ORDER BY event_date;

这个查询统计了从2023年1月1日开始的事件数量。你可以将这个查询用在ClickVisual中，并将结果以图表形式展示。

请注意，具体的安装步骤和查询示例可能会根据你的操作系统和ClickHouse的版本有所不同。建议参考官方文档以获取最新和准确的信息。

使用jupyter运行multiprocessing多进程库的问题

2024-08-25

在Jupyter中使用multiprocessing库时，由于Jupyter本质上是构建在IPython内核之上的，直接在Jupyter的单元格中使用multiprocessing可能会遇到问题。因为multiprocessing会创建新的进程，而Jupyter的内核并不是专门为在多进程环境下使用而设计的。

常见的问题包括无法在子进程中启动IPython内核，或者无法在多个进程之间正确共享变量。

解决方法通常有：

使用multiprocessing的spawn或forkserver启动方法，替换默认的fork方法。
避免在子进程中使用需要UI交互的功能，例如matplotlib的绘图功能。
使用joblib库，它是multiprocessing的一个更高级别的封装，提供了更好的UI后端支持。
使用dill或其他序列化工具，来处理multiprocessing中的复杂对象。

示例代码：




from joblib import Parallel, delayed
 
def my_function(x):
    # 你的函数内容
    pass
 
if __name__ == '__main__':
    # 假设你有一个数字列表
    numbers = list(range(10))
 
    # 使用joblib的Parallel和delayed进行并行计算
    results = Parallel(n_jobs=2)(delayed(my_function)(x) for x in numbers)

请注意，在Jupyter中使用multiprocessing时可能会遇到各种问题，因此建议在实际的命令行脚本中使用multiprocessing，而不是在Jupyter笔记本中。

[JS高级]ESModule和commonJS的原理和执行过程

2024-08-25

ES Module 和 CommonJS 是JavaScript模块化的两种规范。

CommonJS

CommonJS 规范主要用于服务器端，Node.js 在早期就采用了这种规范。CommonJS 模块化规范的主要特点是使用require来同步加载模块，使用module.exports或exports来导出模块。




// 导出模块
const someFunction = () => {
  // ...
};
module.exports = someFunction;
 
// 导入模块
const someFunction = require('./someModule.js');

ES Module

ES Module 是ECMAScript标准的一部分，主要用于浏览器和服务器端，支持静态静态导入和动态导入。其特点是使用import来异步加载模块，使用export来导出模块。




// 导出模块
export const someFunction = () => {
  // ...
};
 
// 导入模块
import { someFunction } from './someModule.js';

两者的区别在于加载模块的机制不同，CommonJS 是运行时加载，ES Module 是编译时加载。因此，在编译阶段，ES Module 可以进行静态分析，进行 tree-shaking 和代码分割等优化。

在浏览器端，由于历史原因，JavaScript 模块还是以 CommonJS 形式存在，直到2015年ES6正式发布，浏览器才开始支持ES Module。为了兼容不同规范，可以在构建工具（如Webpack、Rollup等）中配置相应的加载器（如babel-loader）来转换代码。

更新.gitmodules的子模块仓库地址，但是没有生效，需要运行命令

2024-08-25

要更新.gitmodules中子模块的仓库地址，你需要执行以下步骤：

打开.gitmodules文件，并找到子模块的相关配置部分。
修改子模块的url字段为新的仓库地址。
保存.gitmodules文件并运行以下命令更新子模块：




git submodule sync
git add .gitmodules
git commit -m "Update submodule URLs"

如果你已经克隆了包含子模块的仓库，你还需要运行以下命令来更新本地子模块的仓库地址：




git submodule deinit --force path/to/submodule
git submodule update --init --recursive

其中path/to/submodule是子模块相对于根仓库的路径。

请注意，如果子模块有未提交的本地更改，你可能需要处理这些更改或者在子模块目录中创建一个新的提交，以确保更新后的子模块状态与原来一致。

ElasticSearch入门(实战)

2024-08-25




from datetime import datetime
from elasticsearch import Elasticsearch
 
# 连接到Elasticsearch
es = Elasticsearch("http://localhost:9200")
 
# 创建一个新的日志文档
log_entry = {
    '@timestamp': datetime.now(),
    'message': '这是一条日志信息',
    'level': 'INFO',
    'app': 'example_app'
}
 
# 将日志文档索引到Elasticsearch
res = es.index(index="logs", document=log_entry)
 
# 打印出响应结果
print(res['result'])

这段代码演示了如何使用Elasticsearch Python客户端连接到本地运行的Elasticsearch实例，并创建一个新的日志文档，最后将其索引到名为"logs"的索引中。代码使用了Elasticsearch的index方法来执行索引操作，并打印出操作结果。

解决Git 不相关的分支合并

2024-08-25




# 假设你想将feature-branch分支合并到master分支，并且你已经在feature-branch上操作
 
# 首先，确保你的feature-branch是最新的
git checkout feature-branch
git pull origin feature-branch
 
# 切换到master分支
git checkout master
 
# 拉取最新的master分支代码
git pull origin master
 
# 将feature-branch分支合并到master分支
git merge feature-branch
 
# 如果合并成功且没有冲突，那么你的本地master分支就是最新的了
# 如果有冲突，解决冲突后继续合并
 
# 将合并后的master分支推送到远程仓库
git push origin master

这个例子展示了如何安全地将一个分支合并到另一个分支。在执行合并操作之前，确保你的工作分支是最新的，并且在合并之前解决所有的冲突。

FlinkSql使用ES sink并指定主键，为什么数据还是会被覆盖？

2024-08-25

在使用Flink SQL连接Elasticsearch（ES）作为sink时，如果你指定了主键（primary key），但数据仍然被覆盖，可能的原因和解决方法如下：

原因1：Flink SQL的Elasticsearch sink默认情况下使用_id字段作为主键。如果你的数据中没有_id字段，或者字段名不是_id，Flink可能不会识别你指定的字段作为主键。

解决方法：确保你的数据中有一个字段名为_id，这个字段将作为Elasticsearch的文档主键。如果你的主键字段名不是_id，你可以在Flink SQL DDL中指定字段作为主键。

原因2：Elasticsearch的写操作默认是create，这意味着每次写入时，如果_id已存在，则会创建一个新的文档，覆盖旧的文档。

解决方法：要解决这个问题，你需要将Elasticsearch的写操作设置为update。在Flink的Elasticsearch sink中，可以通过设置sink.bulk-flush.backoff.type为UPDATE来实现。

请确保在Flink的配置中添加如下设置：




'sink.bulk-flush.max-actions': '1'
'sink.bulk-flush.max-size': '1mb'
'sink.bulk-flush.interval': '1s'
'sink.bulk-flush.backoff.type': 'UPDATE'
'sink.bulk-flush.backoff.max-retries': '1'

这样配置后，当Flink尝试写入数据到Elasticsearch时，如果_id已存在，它将尝试更新现有文档而不是覆盖它。如果你的数据中包含了_id字段，并且你已经在Flink SQL DDL中正确指定了主键，这些设置应该可以避免数据被覆盖的问题。

2024-08-25




// 引入相关库
import * as THREE from 'three';
import Stats from 'three/examples/jsm/libs/stats.module.js';
import { OrbitControls } from 'three/examples/jsm/controls/OrbitControls.js';
import { GLTFLoader } from 'three/examples/jsm/loaders/GLTFLoader.js';
 
// 场景、摄像机、渲染器等初始化代码略...
 
// 加载模型
const loader = new GLTFLoader();
loader.load( 'models/animals/horse.gltf', function ( gltf ) {
 
    // 获取模型中的角色
    const horse = gltf.scene.children[ 0 ];
    horse.scale.set( 0.01, 0.01, 0.01 ); // 缩小模型
    scene.add( horse );
 
    // 设置动画和关键帧
    const mixer = new THREE.AnimationMixer( horse );
    const action = mixer.clipAction( gltf.animations[ 0 ] );
 
    // 播放动画
    action.play();
 
    // 更新动画
    mixer.timeScale = 0.8; // 放慢动画
 
    // 创建关键帧
    const keyframes = [];
    keyframes.push({ time: 0, position: horse.position.clone() }); // 记录当前位置
 
    // 设置动画更新时的回调函数
    const clock = new THREE.Clock();
    const update = function ( deltaTime ) {
        const time = clock.getElapsedTime();
 
        // 每隔一定时间记录关键帧
        if ( time > keyframes[ keyframes.length - 1 ].time + 2 ) {
            keyframes.push({
                time: time,
                position: horse.position.clone()
            });
        }
 
        // 插值计算关键帧之间的位置
        const keys = keyframes.length;
        if ( keys > 1 ) {
            const prevKey = keyframes[ keys - 2 ];
            const nextKey = keyframes[ keys - 1 ];
            const p = ( time - prevKey.time ) / ( nextKey.time - prevKey.time );
            horse.position.lerpVectors( prevKey.position, nextKey.position, p );
        }
 
        // 更新动画
        mixer.update( deltaTime );
 
        // 渲染场景
        renderer.render( scene, camera );
    };
 
    // 监听浏览器窗口大小变化
    window.addEventListener( 'resize', onWindowResize );
 
    // 渲染循环
    function animate() {
        requestAnimationFrame( animate );
        update();
    }
 
    animate();
 
}, undefined, function ( error ) {
    console.error( error );
} );
 
// 其他函数和监听器略...

这段代码示例展示了如何在Three.js中加载一个glTF模型，并设置其动画和关键帧记录。它演示了如何使用THREE.AnimationMixer来播放和控制模型的动画，并使用关键帧数组来记录和插值计算模型的位置。最后，它提供了一个update函数，该函数在每一帧调用，用于更新动画状态和渲染场景。

在Ubuntu 16.04上安装和配置Elasticsearch的方法

2024-08-25




#!/bin/bash
 
# 更新系统包索引
sudo apt-get update
 
# 安装依赖包
sudo apt-get install -y openjdk-8-jdk
 
# 添加Elasticsearch PPA
sudo add-apt-repository -y ppa:webupd8team/java
sudo apt-get update
 
# 安装Elasticsearch
sudo apt-get install -y elasticsearch
 
# 启动Elasticsearch服务
sudo systemctl start elasticsearch.service
 
# 设置Elasticsearch服务开机自启
sudo systemctl enable elasticsearch.service
 
# 检查Elasticsearch服务状态
sudo systemctl status elasticsearch.service

这段代码首先更新了系统的包索引，然后安装了OpenJDK 8，并添加了Elasticsearch的PPA仓库。接着，安装了Elasticsearch，并启动了服务。最后，设置了Elasticsearch在开机时自动启动，并检查了服务的状态。这样就完成了在Ubuntu 16.04上安装和配置Elasticsearch的过程。

【Kubenates新增gpu节点调度】

2024-08-25

在Kubernetes中，要使得GPU节点能够调度，需要确保集群中安装了NVIDIA的GPU驱动和相关的device plugin。以下是一个简单的步骤指导和示例代码，用于确保GPU节点可以被Kubernetes调度。

确保GPU驱动安装正确。
确保Kubernetes集群中的kubelet配置了--feature-gates=Accelerators=true。
确保安装了NVIDIA的device plugin。

示例代码（在GPU节点上）:




# nvidia-device-plugin-daemonset.yaml
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: nvidia-device-plugin-daemonset
  namespace: kube-system
spec:
  selector:
    matchLabels:
      name: nvidia-device-plugin-daemonset
  updateStrategy:
    type: RollingUpdate
  template:
    metadata:
      labels:
        name: nvidia-device-plugin-daemonset
    spec:
      containers:
      - name: nvidia-device-plugin-container
        image: nvidia/k8s-device-plugin:1.0.0-beta
        volumeMounts:
          - name: device-plugin-socket
            mountPath: /var/lib/kubelet/device-plugins
      volumes:
        - name: device-plugin-socket
          hostPath:
            path: /var/lib/kubelet/device-plugins

部署device plugin:




kubectl apply -f nvidia-device-plugin-daemonset.yaml

确保GPU资源在Pod规格中被请求：




apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
  - name: cuda-container
    image: nvidia/cuda:9.0-devel
    resources:
      limits:
        nvidia.com/gpu: 1 # 请求1个GPU

这样，Kubernetes集群就会调度GPU资源给请求它们的Pod。确保你的节点标签正确，以便调度器可以按期望的方式工作。