System 发布的文章

2024-08-13

在Elasticsearch中使用IK分词器可以通过以下步骤进行：

安装IK分词器插件：
首先，你需要下载与Elasticsearch版本相匹配的IK分词器插件。你可以从Elasticsearch官方插件仓库或者其他资源下载。

安装插件：

使用Elasticsearch提供的bin/elasticsearch-plugin命令安装插件。例如：




bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip

重启Elasticsearch服务：
安装插件后，需要重启Elasticsearch服务。
使用IK分词器：
安装并重启Elasticsearch服务后，你可以在创建索引时指定IK分词器。例如，创建一个名为my_index的索引，并使用IK分词器定义一个名为my_analyzer的分析器：
```
PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "ik_max_word"
        }
      }
    }
  }
}
```
在上述例子中，ik_max_word是IK分词器提供的最精细粒度的分词模式，它会进行最精细粒度的分词，同时也支持智能分词。
使用分析器：
创建索引后，你可以使用定义的分析器来分析文本。例如：
```
POST /my_index/_analyze
{
  "analyzer": "my_analyzer",
  "text": "我爱计算机技术"
}
```
这将返回分析的词汇列表，展示了如何使用my_analyzer分析中文字符串我爱计算机技术。

请注意，具体的插件版本需要与你的Elasticsearch版本相匹配，并且在生产环境中安装插件前应该进行充分的测试。

- 阅读更多 -

Automa爬取网页数据直接入库

System

2024-08-13

所有,爬虫




import sqlite3
from automa.core.context import Context
from automa.web.browser import Browser
 
# 连接SQLite数据库
conn = sqlite3.connect('example.db')
cursor = conn.cursor()
 
# 创建表格
cursor.execute('''
CREATE TABLE IF NOT EXISTS jobs (
    id INTEGER PRIMARY KEY,
    title TEXT,
    location TEXT,
    description TEXT
)
''')
conn.commit()
 
# 定义一个函数，将爬取的数据插入到数据库中
def insert_job(title, location, description):
    cursor.execute('''
        INSERT INTO jobs (title, location, description)
        VALUES (?, ?, ?)
    ''', (title, location, description))
    conn.commit()
 
# 使用Automa进行自动化操作
with Browser() as browser:
    with Context(browser):
        # 此处省略获取数据的代码，假设我们已经有了jobs列表
        jobs = [...]  # 假设的作业数据列表
        for job in jobs:
            insert_job(job['title'], job['location'], job['description'])
 
# 关闭数据库连接
conn.close()

这个代码实例展示了如何使用Automa和SQLite来完成数据的爬取和存储工作。首先，我们连接到一个SQLite数据库，并创建了一个存储工作信息的表格。然后，我们定义了一个函数insert_job，用于将工作数据插入到数据库中。接下来，我们使用Automa的上下文管理器和浏览器实例来进行自动化操作，在这个例子中，省略了具体的数据抓取代码，假设我们已经有了一个包含作业数据的列表jobs。最后，我们遍历这个列表，将每个作业的数据插入到数据库中，并在完成后关闭数据库连接。

- 阅读更多 -

【Java Web】网页计时器

System

2024-08-13

所有,html5

在Java Web应用中创建一个简单的网页计时器，可以通过JavaScript实现前端的计时功能。以下是一个简单的例子：




<!DOCTYPE html>
<html>
<head>
    <title>计时器</title>
    <script type="text/javascript">
        // 设置当前时间
        var currentTime = new Date();
 
        // 更新时间函数
        function updateClock() {
            var currentTime = new Date(); // 获取当前时间
            var hours = currentTime.getHours();
            var minutes = currentTime.getMinutes();
            var seconds = currentTime.getSeconds();
 
            // 如果需要，可以对时间进行格式化
            minutes = (minutes < 10 ? "0" : "") + minutes;
            seconds = (seconds < 10 ? "0" : "") + seconds;
 
            // 显示时间
            var timeString = hours + ":" + minutes + ":" + seconds; // 时间字符串
            document.getElementById("clock").innerHTML = timeString; // 显示时间
 
            // 每秒更新一次时间
            setTimeout(updateClock, 1000);
        }
 
        // 页面加载完成后开始计时
        window.onload = function() {
            updateClock();
        };
    </script>
</head>
<body>
    <div id="clock"></div>
</body>
</html>

这段代码会在网页加载时开始显示当前时间，并且每秒更新一次。计时器通过JavaScript的setTimeout函数以及自定义的updateClock函数实现。这个计时器不需要后端服务器的参与，是纯前端的实现。

- 阅读更多 -

Git与Repo：开源开发的得力工具组合

System

2024-08-13

所有,elasticsearch

Git和Repo是用于处理Android开源项目（AOSP）的版本控制工具。Git是一个分布式版本控制系统，而Repo是一个用于管理Git仓库集合的脚本，它简化了对多个Git仓库的操作。

以下是如何使用Repo同步AOSP源代码的基本步骤：

安装Repo工具：




mkdir ~/bin
PATH=~/bin:$PATH
curl https://storage.googleapis.com/git-repo-downloads/repo > ~/bin/repo
chmod a+x ~/bin/repo

创建一个新目录来存放源代码，并进入该目录：
```
mkdir my_aosp_project
cd my_aosp_project
```

初始化Repo并同步源代码：




repo init -u https://android.googlesource.com/platform/manifest
repo sync

repo init 命令初始化当前目录作为工作目录，并下载Repo项目中所需的manifest脚本和相关文件。-u 参数指定了manifest库的URL，这是AOSP的manifest库。

repo sync 命令同步所有在manifest文件中声明的项目，下载或更新它们以保持与远程版本库的一致性。

这些步骤是在命令行中执行的，适用于Linux或Mac系统。Windows用户可能需要使用类似Git Bash的工具来运行这些命令。

- 阅读更多 -

基于Docker安装Elasticsearch【保姆级教程、内含图解】

System

2024-08-13

所有,elasticsearch




# 拉取Elasticsearch官方Docker镜像
docker pull docker.elastic.co/elasticsearch/elasticsearch:8.1.0
 
# 运行Elasticsearch容器
docker run --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" docker.elastic.co/elasticsearch/elasticsearch:8.1.0

这段代码首先通过docker pull命令从Elasticsearch的官方Docker仓库拉取了版本为8.1.0的镜像。然后使用docker run命令运行了一个名为elasticsearch的容器，并将容器内的9200和9300端口映射到了宿主机的相应端口上，以便于外部访问。设置环境变量"discovery.type=single-node"是为了让Elasticsearch在单节点模式下运行，适合开发和测试环境。

- 阅读更多 -

Es批量删除DeleteByQueryRequestBuilder

System

2024-08-13

所有,elasticsearch

在Elasticsearch中，使用DeleteByQueryRequestBuilder可以根据指定的查询条件来批量删除文档。以下是一个使用Java High Level REST Client的例子，演示如何使用DeleteByQueryRequestBuilder来批量删除满足特定查询条件的文档。




import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.index.reindex.DeleteByQueryRequest;
import org.elasticsearch.index.reindex.DeleteByQueryResponse;
import java.io.IOException;
 
public class DeleteByQueryExample {
    public static void main(String[] args) throws IOException {
        // 初始化Elasticsearch客户端
        try (RestHighLevelClient client = new RestHighLevelClient(...)) {
            // 创建DeleteByQueryRequestBuilder
            DeleteByQueryRequest request = new DeleteByQueryRequest("index_name"); // 替换为你的索引名
 
            // 设置查询条件
            request.setQuery(QueryBuilders.matchQuery("field_name", "value")); // 替换为你的字段名和值
 
            // 执行批量删除
            DeleteByQueryRequestBuilder deleteRequestBuilder = new DeleteByQueryRequestBuilder(client, DeleteByQueryAction.INSTANCE, request);
            DeleteByQueryResponse response = deleteRequestBuilder.get();
 
            // 打印结果
            long deleted = response.getDeleted();
            System.out.println("Batch delete operation completed. " + deleted + " documents deleted.");
        }
    }
}

确保替换index_name为你的目标索引名，以及根据需要替换查询条件。这段代码使用了DeleteByQueryRequestBuilder来构建和执行批量删除操作，并打印了删除的文档数量。

System

2024-08-13

所有,elasticsearch

以下是一个使用了上述工具的Node.js项目的简化版package.json文件示例：




{
  "name": "your-project",
  "version": "1.0.0",
  "scripts": {
    "format": "prettier --write .",
    "lint": "eslint .",
    "lint:staged": "lint-staged"
  },
  "husky": {
    "hooks": {
      "pre-commit": "npm run lint && npm run format",
      "commit-msg": "commitlint -E HUSKY_GIT_PARAMS"
    }
  },
  "lint-staged": {
    "*.js": "eslint --fix",
    "*.ts": "eslint --fix"
  },
  "devDependencies": {
    "eslint": "^7.20.0",
    "prettier": "^2.2.1",
    "husky": "^6.0.0",
    "lint-staged": "^10.0.7",
    "commitlint": "^11.0.0",
    "commitizen": "^4.2.4"
  },
  "eslintConfig": {
    "extends": ["some-eslint-config"]
  },
  "prettier": {
    "singleQuote": true,
    "trailingComma": "es5",
    "printWidth": 80
  },
  "commitlint": {
    "extends": ["@commitlint/config-conventional"]
  },
  "config": {
    "commitizen": {
      "path": "cz-conventional-changelog"
    }
  }
}

这个配置文件定义了项目的基本信息，包括脚本命令，husky钩子，lint-staged配置，以及所需依赖的版本。同时，它也包含了eslintConfig、prettier、commitlint和config部分，用于配置ESLint、Prettier、Commitlint和Commitizen。这样的配置文件提供了一个结构化的方式来管理代码质量和版本控制提交规范。

- 阅读更多 -

《Git常用命令》详细讲解·第5篇（git log和git blame）

System

2024-08-13

所有,elasticsearch

在Git中，git log命令用于显示提交历史记录，而git blame则用于追踪文件的修改历史。

git log

基本用法：




git log

显示最近的N次提交：




git log -n <数量>

以更友好的格式显示日志：




git log --pretty=format:"%h - %an, %ar : %s"

图形化显示分支和提交：




git log --graph

搜索特定作者的提交：




git log --author="作者名"

搜索包含特定关键字的提交：




git log --grep="关键字"

显示特定文件的提交历史：




git log -- <文件路径>

git blame

基本用法：




git blame <文件路径>

以更友好的格式显示结果：




git blame -l <文件路径>

显示每个区块的起始提交：




git blame -L <起始行,结束行>,<文件路径>

显示每个区块的起始修改者和时间：




git blame -C -L <起始行,结束行>,<文件路径>

这些是git log和git blame的基本用法和一些高级用法。

- 阅读更多 -

Elasticsearch分词插件配置

System

2024-08-13

所有,elasticsearch




{
  "analysis": {
    "filter": {
      "autocomplete_filter": {
        "type": "ngram",
        "min_gram": 1,
        "max_gram": 20
      }
    },
    "analyzer": {
      "autocomplete": {
        "type": "custom",
        "tokenizer": "standard",
        "filter": [
          "lowercase",
          "autocomplete_filter"
        ]
      }
    }
  }
}

这个配置定义了一个自定义的分析器autocomplete，它使用了标准（standard）分词器，并配置了一个ngram过滤器autocomplete_filter，用于自动完成查询。在查询时，它将把输入的文本分成1到20个字gram，并将它们转换为小写。这样，用户在搜索时输入的任何文本都能够匹配文档中的ngram。

System

2024-08-13

所有,elasticsearch

解释：

这个错误表明你正在尝试使用MongoDB的listIndexes命令，但是你的MongoDB服务器版本不支持这个命令。listIndexes是在MongoDB 3.4及以后版本中引入的，如果你的MongoDB版本低于3.4，那么你将无法使用这个命令。

解决方法：

升级你的MongoDB服务器到3.4或更高版本。
如果你不能升级MongoDB服务器，你可以使用db.collection.getIndexes()方法来代替listIndexes命令来列出集合的索引。

请确保在执行任何升级操作之前备份你的数据，以防出现数据丢失的情况。

- 阅读更多 -