分类 AIGC 下的文章

Java高效写入大量数据到Excel文件——使用Apache POI的SXSSFWorkbook

2024-09-04




import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.streaming.SXSSFWorkbook;
import java.io.*;
 
public class ExcelWriter {
    private static final int MAX_ROWS = 1000; // 每写完1000行Flush一次
 
    public static void main(String[] args) throws IOException {
        Workbook workbook = new SXSSFWorkbook(); // 创建工作簿实例
        Sheet sheet = workbook.createSheet("数据"); // 创建工作表
 
        // 写入数据
        for (int rowNum = 0; rowNum < 10000; rowNum++) {
            Row row = sheet.createRow(rowNum);
            for (int colNum = 0; colNum < 10; colNum++) {
                Cell cell = row.createCell(colNum);
                cell.setCellValue("Cell " + rowNum + "," + colNum);
            }
            if (rowNum % MAX_ROWS == 0) {
                workbook.write(flushToDisk(workbook)); // 达到指定行数时，将内容flush到磁盘
            }
        }
 
        // 全部数据写入后，关闭工作簿
        workbook.write(flushToDisk(workbook));
        workbook.close();
    }
 
    private static OutputStream flushToDisk(Workbook workbook) throws IOException {
        String filePath = "大数据.xlsx";
        File file = new File(filePath);
        if (!file.exists()) {
            file.createNewFile();
        }
        FileOutputStream fos = new FileOutputStream(filePath);
        workbook.write(fos);
        fos.flush();
        return fos;
    }
}

这段代码使用了Apache POI库中的SXSSFWorkbook类来创建一个Excel工作簿，并通过循环写入了大量数据。每写完1000行数据后，会将当前的工作簿状态flush到磁盘中，以防止内存溢出。最后，在所有数据写入完毕后关闭工作簿并释放资源。这是一个实际应用中用于处理大量数据导出的高效方法。

System

2024-09-04

所有,AIGC




from fastapi import FastAPI
from qwen2 import Qwen2Tokenizer
 
app = FastAPI()
 
@app.get("/tokenize/{text}")
async def tokenize(text: str):
    qwen2_tokenizer = Qwen2Tokenizer()
    tokens = qwen2_tokenizer(text)
    return tokens
 
# 如果需要在Uvicorn服务器上运行FastAPI应用，可以在文件的最后添加以下代码
# if __name__ == "__main__":
#     import uvicorn
#     uvicorn.run(app, host="0.0.0.0", port=8000)

这段代码演示了如何使用FastApi框架创建一个简单的API，该API接受一个文本字符串作为输入，并使用Qwen2分词器对其进行分词处理。然后，它会返回分好的词作为响应。最后的注释代码块显示了如何在Uvicorn服务器上运行这个FastAPI应用程序。

System

2024-09-04

所有,AIGC

报错信息提示无法导入transformers.models.llama.tokenization模块。这通常意味着transformers库中的LLaMA模型部分可能存在问题，或者该部分尚未实现，或者环境配置有误导致该模块无法被正确识别和加载。

解决方法：

确认transformers库已正确安装且版本是最新的。可以使用以下命令更新transformers库：
```
pip install --upgrade transformers
```
如果你正在使用的是LLaMA模型，确保你的环境满足LLaMA模型的所有依赖要求。
如果你尝试使用的特性是transformers库中新添加的，确保你的transformers库版本是最新的。
如果上述方法都不能解决问题，可能是transformers库中确实没有实现对LLaMA的tokenization支持。这种情况下，你可以尝试以下几个方法：
- 查看transformers库的官方文档或GitHub仓库，以确认LLaMA的tokenization是否已经支持。
- 如果transformers库中没有实现，你可以尝试使用LLaMA的原始tokenizer，或者查找其他第三方的tokenizer。
- 如果你需要使用LLaMA模型，可以考虑使用其他支持LLaMA的库，如那些正在维护中的库或者提供类似功能的库。
如果你认为这是一个库中的错误，可以考虑在transformers库的GitHub仓库中提交issue，以便开发者查看并解决问题。

总结，解决这个问题的关键是确保transformers库是最新的，并且如果你正在使用的是该库的特定模型部分，确保你的环境满足所有依赖要求。如果问题依旧，可能需要查看官方文档或等待库的更新。

- 阅读更多 -

AIGC专栏1——Pytorch搭建DDPM实现图片生成

System

2024-09-04

所有,AIGC




import torch
import torch.nn as nn
from torch.distributions import MultivariateNormal
 
# 定义DDPM类
class DDPM(nn.Module):
    def __init__(self, num_channels, num_residual_blocks):
        super().__init__()
        self.num_channels = num_channels
        self.num_residual_blocks = num_residual_blocks
        # 初始化变量，这里省略具体的变量初始化代码
 
    def forward(self, x, time):
        # 前向传播逻辑，这里省略具体的网络结构代码
        return x
 
    def q_sample(self, x_start, time):
        # 根据posterior分布sample z
        return x_start
 
    def p_mean_var(self, x_start, time):
        # 计算p(x)的均值和方差
        return x_start, torch.zeros_like(x_start)
 
    def forward_diffusion(self, x_start, timesteps):
        alphas, x_samples = [], []
        for i in range(len(timesteps)):
            x_sample = self.q_sample(x_start, timesteps[:i+1])
            mean, variance = self.p_mean_var(x_start, timesteps[i])
            # 计算alpha
            alpha = self._make_alpha(x_sample, mean, variance, timesteps[i])
            alphas.append(alpha)
            x_start = x_sample
            x_samples.append(x_sample)
        return alphas, x_samples
 
    def _make_alpha(self, x_sample, mean, variance, t):
        # 根据x_sample, mean, variance和t生成alpha
        return x_sample
 
# 实例化DDPM模型
ddpm = DDPM(num_channels=3, num_residual_blocks=2)
 
# 设置需要生成的时间步长
timesteps = torch.linspace(0, 1, 16)
 
# 设置初始状态
x_start = torch.randn(1, 3, 64, 64)
 
# 执行diffusion过程
alphas, x_samples = ddpm.forward_diffusion(x_start, timesteps)
 
# 输出结果
for i, x_sample in enumerate(x_samples):
    print(f"时间步长 {timesteps[i]} 处的样本:")
    print(x_sample)

这个代码实例提供了一个简化的DDPM类实现，包括前向传播逻辑、sample生成以及p(x)的均值和方差计算。这个例子展示了如何使用PyTorch定义一个深度生成模型，并且如何在实际应用中进行图片生成。在实际应用中，需要根据具体的网络结构和DDPM的变体进行更详细的实现。

System

2024-09-04

所有,AIGC

llama-parse是一个Python库，用于高效地解析和表示文件。它提供了一种简单的方法来处理大型文件，尤其是那些需要进行复杂处理的文件。

安装

您可以使用pip来安装llama-parse：




pip install llama-parse

使用方法

基本使用

llama-parse库提供了一个LlamaParser类，您可以使用它来读取和处理文件。




from llama_parse import LlamaParser
 
# 创建一个解析器对象
parser = LlamaParser()
 
# 读取文件
with parser.open('example.txt') as file:
    for line in file:
        print(line)

高级使用

llama-parse还允许您指定读取文件的块大小，这对于处理大型文件非常有用。




from llama_parse import LlamaParser
 
# 创建一个解析器对象，指定块大小为1MB
parser = LlamaParser(block_size=1024 * 1024)
 
# 读取文件
with parser.open('large_example.txt') as file:
    for block in file:
        # 处理块
        process_block(block)

案例

以下是一个使用llama-parse处理大型文件的简单案例：




from llama_parse import LlamaParser
 
# 创建解析器对象
parser = LlamaParser()
 
# 统计文件中单词的数量
def count_words(file_path):
    with parser.open(file_path) as file:
        return sum(len(line.split()) for line in file)
 
# 使用函数统计文件大小
word_count = count_words('big_text_file.txt')
print(f'Number of words in the file: {word_count}')

这个案例创建了一个解析器对象，然后定义了一个函数，该函数使用该解析器来有效地读取文件并计算文件中单词的数量。这种方法对于处理大型文件非常有效，因为它不会使用大量的内存。

- 阅读更多 -

使用langchain4j调用大模型写个聊天助手

System

2024-09-04

所有,AIGC

使用langchain4j调用大型模型创建一个简单的聊天助手，可以遵循以下步骤：

引入必要的依赖库。
初始化模型和prompt。
创建一个用户界面循环，接收用户输入并生成响应。

以下是一个简单的Python示例：




from langchain import Prompt, LLMChain
from langchain.llms import OpenAI
 
# 初始化OpenAI LLM
llm = OpenAI(temperature=0)  # 设置temperature为0表示使用最佳输出
 
# 初始化聊天助手提示
prompt = Prompt(
    content="你是一个大型语言模型。你可以提供帮助，回答问题，或者进行对话。请随意和我聊天。",
    input_variables=["user_input"],
    output_variable="llm_response"
)
 
# 创建聊天助手链
chain = LLMChain(llm=llm, prompt=prompt)
 
# 用户界面循环
print("欢迎来到聊天助手，输入'exit'退出。")
while True:
    user_input = input("用户输入: ")
    if user_input == "exit":
        print("聊天助手已退出。")
        break
    llm_response = chain.run(user_input)
    print(f"聊天助手回复: {llm_response}\n")

在这个例子中，我们使用了langchain库来初始化一个简单的聊天助手。用户输入一个问题或者指令，聊天助手会调用大型语言模型（LLM）来生成响应。这个例子展示了如何使用langchain4j进行基本的聊天助手开发。

- 阅读更多 -

使用llama-cpp-python制作api接口

System

2024-09-04

所有,AIGC

使用llama-cpp-python创建API接口通常涉及以下步骤：

安装llama-cpp-python库。
编写C++代码以实现API功能。
编译C++代码为动态链接库（DLL）或共享对象（.so）。
使用Python编写封装接口的代码，并加载C++生成的动态链接库。

以下是一个简单的例子：

C++代码 (example.cpp)




#include <pybind11/pybind11.h>
 
int add(int a, int b) {
    return a + b;
}
 
PYBIND11_MODULE(example_api, m) {
    m.doc() = "Example plugin"; // Optional module documentation
 
    m.def("add", &add, "Add two numbers");
}

编译C++代码

使用CMake和相应的编译器来编译上述代码，生成动态链接库。

Python代码 (wrapper.py)




import ctypes
 
# 加载C++动态链接库
lib = ctypes.CDLL('path_to_your_library/example_api.so')
 
# 定义Python接口
def add(a, b):
    return lib.add(ctypes.c_int(a), ctypes.c_int(b))
 
# 使用Python接口
result = add(3, 5)
print(result.value)  # 输出8

确保替换path_to_your_library/example_api.so为实际生成的动态链接库路径。

注意：

确保C++代码中的函数与Python中的调用方式匹配，包括参数类型和返回类型。
在编译C++代码时，确保链接了正确的Python库，如果Python版本变化，可能需要修改编译选项。
这个例子假设你已经有C++和Python环境，以及相关的编译工具链。

- 阅读更多 -

本地部署whisper模型（语音转文字）

System

2024-09-04

所有,AIGC

要在本地部署一个Whisper模型（语音转文本），你可以使用开源的语音识别库，如pytorch/whisper。以下是一个简单的例子，展示如何使用whisper库在本地部署一个语音转文本的模型。

首先，确保安装了whisper库：




pip install whisper

然后，你可以使用以下代码示例进行语音转文本的转换：




import whisper
 
# 加载预先训练好的Whisper模型
model_path = 'path_to_your_whisper_model.wav2vec'
model = whisper.load_model(model_path)
 
# 声明音频文件路径
audio_path = 'path_to_your_audio_file.wav'
 
# 执行语音转文本
transcription = model.transcribe(audio_path)
 
# 打印转录结果
print(transcription)

确保替换path_to_your_whisper_model.wav2vec和path_to_your_audio_file.wav为你的模型和音频文件的实际路径。

这个例子假设你已经有了一个训练好的Whisper模型。如果你还没有模型，你可以使用whisper提供的工具来训练你自己的模型，或者使用预训练的模型。

请注意，上述代码只是一个简单的示例，实际使用时可能需要处理音频预处理、解码等细节。

System

2024-09-04

所有,AIGC

在魔塔（ModelScope）部署Stable Diffusion WebUI并实现网络穿透，可外部调用的步骤如下：

准备环境：确保你有一个魔塔账号，并且有权限创建服务。
部署Stable Diffusion WebUI：在魔塔的应用市场中搜索并安装Stable Diffusion WebUI应用。
配置WebUI：根据需要配置WebUI，包括下载模型、设置API密钥等。
网络穿透：
- 在魔塔中为你的Stable Diffusion WebUI实例设置正确的端口映射。
- 如果需要，在防火墙中打开对应端口。
启动服务：启动Stable Diffusion WebUI服务。
外部调用：其他设备现在可以通过你的公网IP和映射端口外部调用你的Stable Diffusion WebUI服务。

示例代码（假设你已经在魔塔中完成了上述步骤）：




# 假设魔塔提供了API来设置端口映射和防火墙规则
# 设置端口映射
set_port_mapping(local_port=80, external_port=30000)
 
# 设置防火墙规则
add_firewall_rule(protocol='tcp', port=30000)

确保你遵循魔塔的API使用指南和安全最佳实践来保护你的服务。

- 阅读更多 -

Esp32S3通过文心一言大模型实现智能语音对话

System

2024-09-04

所有,AIGC

以下是一个简化的例子，展示如何在ESP32-S3上使用文心一言大模型实现基本的智能语音对话功能。

首先，确保你已经在ESP32-S3上安装了MicroPython，并且配置了文心一言的API密钥。




import network
import urequests as requests
import ujson
from machine import Pin, SoftI2C
from ssd1306 import SSD1306_I2C
 
# 配置网络连接
def do_connect():
    wlan = network.WLAN(network.STA_IF)
    wlan.active(True)
    if not wlan.isconnected():
        print('connecting to network...')
        wlan.connect('你的WiFi名称', '你的WiFi密码')
        while not wlan.isconnected():
            pass
    print('network config:', wlan.ifconfig())
 
# 发送请求到文心一言API
def send_request(text):
    url = "https://openapi.baidu.com/oauth/2.0/token"
    data = {
        'grant_type': 'client_credentials',
        'client_id': '你的API Key',
        'client_secret': '你的Secret Key'
    }
    response = requests.post(url, data=data)
    access_token = ujson.loads(response.text)['access_token']
 
    url = "https://aip.baidubce.com/rpc/2.0"
    data = {
        'access_token': access_token,
        'version': '2.0',
        'service': 'chat.bot.emotion',
        'session_id': 'your_session_id', # 你的会话ID
        'log_id': '123456789',
        'request': ujson.dumps({
            'query': text,
            'user_id': 'your_user_id', # 你的用户ID
        })
    }
    response = requests.post(url, data=data)
    return ujson.loads(response.text)['response']['result']['answers'][0]['answer']
 
# OLED显示函数
def display_text(text):
    i2c = SoftI2C(scl=Pin(5), sda=Pin(4))
    oled = SSD1306_I2C(128, 64, i2c, addr=0x3c)
    oled.text(text, 0, 0)
    oled.show()
 
# 语音对话处理函数
def handle_conversation():
    do_connect()
    display_text("连接成功！")
    while True:
        # 这里应该是语音识别代码，暂时用input模拟
        voice_input = input("请输入你的问题: ")
        display_text("你说: " + voice_input)
        response = send_request(voice_input)
        display_text("机器回答: " + response)
        print("机器回答: " + response)
 
handle_conversation()

这段代码首先配置了网络连接，然后定义了发送请求到文心一言API的函数，并且实现了一个简单的OLED显示文本的功能。handle_conversation函数负责整个会话循环，模拟语音输入，发送请求，并在OLED上显示结果。

注意：这

- 阅读更多 -