大数据常用集群脚本一、集群分发同步脚本1.1 在/bin目录下创建xsync文件1cd /bin && vim xsync
1.2 xsync集群分发同步Shell脚本12345678910111213141516171819202122232425262728#!/bin/bash#1. 判断参数个数if [ $# -lt 1 ]then echo Not Enough Arguement! exit;fi#2. 遍历集群所有机器for host in master slave1 slave2do echo ==================== $host ==================== #3. 遍历所有目录,挨个发送 for file in $@ do #4 判断文件是否存在 if [ -e $file ] then #5. 获取父目录 pdir=$(cd -P $(dirname $file); pwd) #6. 获取当前文件的名称 fname=$(basename $file ...
数仓分层数据仓库理论上一般分为三层
ODS 数据运营层
DW 数据仓库层
ADS 数据服务层
ODS 数据运营层OperationDataStore数据准备区,也称为贴源层。数据仓库源头系统的数据表通常会原封不动的存储一份,称为 ODS 层,是后续数据仓库加工数据的来源。ODS 层数据的来源方式:
业务库: 离线方面经常会使用 Sqoop 来抽取,例如每天定时抽取一次。实时方面可以考虑用 Canal 监听 MySQL 的 binlog,实时接入即可。
埋点日志: 日志一般以文件的形式保存,可以选择用 Flume 定时同步,可以用 SparkStreaming 或者 Flink 来实时接入
消息队列: 即来自 ActiveMQ、Kafka 的数据等。
DW 数据仓库层DW 数据仓库层,由下到上可以分为 DWD(数据明细层),DWM(数据中间层),DWS(数据服务层)。从 ODS 层中获得的数据将按照主题建立各种数据模型。这一层和维度建模会有比较深的联系。
DWD 细节数据层DWD: Data Warehouse Details 细节数据层,是业务层与数据仓库的隔离层。主要对 OD ...
数据开发
未读Spark的宽窄依赖如何划分宽窄依赖如果子RDD的一个分区完全依赖父RDD的一个或多个分区,则是窄依赖,否则就是宽依赖。这个完全依赖怎么理解呢?其实就是父RDD一个分区的数据是否需要切分,或者说子RDD分区要依赖父RDD分区的全部而不仅仅是一部分。上面这样说相对比较严谨,但也会有特殊情况,比如在只有一个分区的情况下,强行使用repartiton操作,即使父子RDD各自只有一个分区,也是宽依赖。这种情况生产中不会遇到,但要知晓。Narrow DependiesVolantis
数据开发
未读常用端口号
常用端口号
2.x
3.x
访问 HDFS 端口号
50070
9870
NN 内部通信端口
9000
8020
访问 MR 执行任务情况端口
8088
8088
Yarn 内部通信端口
8032
8032
访问历史服务器端口
19888
19888
历史服务器内部端口
10020
10020
常用配置文件
常用配置文件
作用
core-site.xml
配置 Hadoop 的基本属性,例如 HDFS 的默认文件系统、I/O 和记录日志等设置。
hdfs-site.xml
配置 HDFS 的属性,例如数据块大小、副本数量、名字节点和数据节点的地址、缓存等。
yarn-site.xml
配置 YARN 的属性,例如资源管理器和节点管理器的地址、内存和 CPU 的分配、日志聚合等。
mapred-site.xml
配置 MapReduce 的属性,例如作业跟踪器和任务跟踪器的地址、作业优先级、输出压缩等。
hadoop-env.sh
配置 Hadoop 的环境变量,例如 JAVA_HOME、HADOOP_H ...
基于 Ububtu Server 20.04.1 LTS 版本Hadoop 3.1.3 版本
一、重新设置主机名12hostnamectl set-hostname localhostbash
二、关闭防火墙防火墙常用命令
Ubuntu安装防火墙 sudo apt-get install ufw -y
查看防火墙开启状态 sudo ufw status
开启某个端口(以8866为例) sudo ufw allow 8866
开启防火墙 sudo ufw enable
关闭防火墙 sudo ufw disable
重启防火墙 sudo ufw reload
禁止某个端口(以8866为例) sudo ufw delete allow 8866
查看端口IP netstat -ltn
2.1 关闭防火墙1ufw disable
2.2 检查防火墙是否关闭1ufw status
三、设置IP映射2.1 主节点配置 hosts 文件1vim /etc/hosts
3.2 添加ip地址和主机名110.211.55.60 localhost
3.3 测试IP映射配置1pin ...