Flink 学习九 Flink 程序分布式运行部署

这篇文章距离上次修改已过518天，其中的内容可能已经有所变动。

在Flink中，程序可以以不同方式部署和运行，以下是一些常见的部署方式：

本地模式（Local Mode）：适用于开发和测试。所有的Flink集群组件都运行在一个JVM中。
集群模式：Flink程序提交到YARN或者其他资源管理器上，然后Flink自身负责在各个节点上启动相应的任务管理器、JobManager和TaskManager。

以下是一个简单的Flink程序，用于演示如何在集群模式下运行：




import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;
 
public class WordCount {
 
    public static void main(String[] args) throws Exception {
        // 创建流执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
 
        // 读取数据，例如从socket中读取
        DataStream<String> text = env.socketTextStream("localhost", 9999);
 
        // 对数据进行处理，分割为单词，并统计每个单词出现的次数
        DataStream<Tuple2<String, Integer>> wordCounts = text
            .flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {
                @Override
                public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
                    for (String word : value.split("\\s")) {
                        out.collect(new Tuple2<String, Integer>(word, 1));
                    }
                }
            })
            .keyBy(0)
            .sum(1);
 
        // 输出结果
        wordCounts.print();
 
        // 执行任务
        env.execute("Word Count Example");
    }
}

在集群模式下运行，需要修改代码以适应特定的集群环境，例如指定JobManager的地址和端口，并确保任务提交时可以访问集群。

提交到YARN的命令大致如下：




./bin/flink run -m yarn-cluster -p 2 -ynm MyApp /path/to/my/app.jar

其中：

-m yarn-cluster 指定了提交到YARN集群。
-p 2 指定了分配给应用程序的处理器数量。
-ynm MyApp 指定了应用程序的名称。

提交到其他资源管理器（如Kubernetes）的过程类似，只是需要调整命令中的参数。

以上代码和命令仅为示例，实际部署时需要根据具体的Flink版本和集群配置进行相应的调整。

Flink 学习九 Flink 程序分布式运行部署

评论已关闭

推荐阅读