柠檬大师的空间站

发表于2020-08-09|大数据|大数据•Linux•安装教程

适合人群刚好不能使用wget和yum命令的需要用tar安装的 root进行操作前言我的Linux安装的是RedHat7.4发行版本，其实我还是在推荐刚开始学习Linux的时候装centos，Redhat在使用的过程中会遇到许多问题，让你去注册它的账号才能去使用一些命令，总之是特别麻烦。那么我为什么装RedHat呢？没办法工作需要，MySQL安装方式也可以使用yum源傻瓜式安装，不过我建议初学者还是使用tar包安装方式比较好。方便理解其中的过程。之后遇到什么问题，找起来也会更加容易。我这篇文章安装MySQL全程不需要yum命令（当时还没进行换源操作）。安装前提使用root用户操作。关闭防火墙（上传MySQL的tar包）修改网络配置（如果不用xShell，finalShell之类的工具可以不配，黑框框也非常不方便，而且实际过程中也不会允许你直接操作虚拟机，所以现在不配，以后也要配）安装步骤如下 1.检查服务器是否已安装MySQL，如已安装则将其卸载:rpm -qa|grep mysql （-q表示使用询问模式，当遇到任何问题时，rpm指令会先询问用户。-a表 ...

HDFS全分布式安装

发表于2020-08-08|大数据|大数据•安装教程

安装前准备关闭防火墙修改主机名配置/etc/hosts文件配置免密登录安装JDK 安装zookeeper（集群式安装）解压Hadoop selinux关闭掉，这是linux系统的一个安全机制，进入文件中将SELINUX设置为disabled 安装步骤1：进入hadoop安装子目录etc/hadoop/下 2：修改hadoop-env.sh文件。source hadoop-env.sh使其生效 12export JAVA_HOME=/usr/local/jdk1.8export HADOOP_CONF_DIR=/home/ldl/software/hadoop-2.7.1/etc/hadoop 3：配置core-site.xml；hdfs-site.xml；mapred-site.xml；yarn-site.xml四个xml文件 core-site.xml 123456789101112131415 <property> <name>fs.defaultFS ...

Hbase集群安装

发表于2020-08-08|大数据|大数据•安装教程

安装前准备：zookeeper+JDK+Hadoop 安装步骤1：上传并解压 2：修改conf/hbase.env.sh 增加JAVA_HOME：export JAVA_HOME=/usr/local/jdk1.8 增加Zookeeper和Hbase的协调模式，hbase默认使用自带的zookeeper，如果需要使用外部zookeeper，需要先关闭：export HBASE_MANAGES_ZK=false 12export JAVA_HOME=/usr/local/jdk1.8export HBASE_MANAGES_ZK=false 3：配置hbase-site.xml，配置开启完全分布式模式 123456789101112<property><name>hbase.rootdir</name><value>hdfs://ns/hbase</value></property><property><name>hbase.cluster.distributed</name>& ...

Hive安装部署

发表于2020-08-08|大数据|大数据•安装教程

跟我一路装下来的，基本的我就省略了，装Hive不难，直入主题安装步骤1：启动zookeeper 1zkServer.sh start 2：启动Hadoop（包括hdfs和yarn） 1start-all.sh 3：解压hive安装包 4：改名（非必须） 5：配置环境变量 1234vim /etc/profile 在文件末端加export HIVE_HOME=/home/ldl/software/hive-1.2.1export PATH=$PATH:$HIVE_HOME/bin 6：启动hive hive

ZK完全分布式安装

发表于2020-08-08|大数据|大数据•安装教程

安装前准备关闭防火墙，配置ssh免密登录 Apache ZooKeeper 可以通过官网下载，自己有也可以。我用的是3.4.7 1:上传zookeeper安装包 2:解压zookeeper安装包 1tar -xvf zookeeper-3.4.7.tar.gz 3:建议改名 4:进入conf目录 1cd zookeeper-3.4.7/conf/ 5:将zoo_sample.cfg复制一份zoo.cfg 因为Zookeeper在启动的时候会自动寻找zoo.cfg，根据其中的配置来启动存储数据 1cp zoo_sample.cfg zoo.cfg 6:更改zoo.cfg 的配置 1vi zoo.cfg 在文件末端按如下配置 12345dataDir=/home/ldl/software/zookeeper-3.4.7/datadataLogDir=/home/ldl/software/zookeeper-3.4.7/logserver.1=192.168.11.131:2888:3888server.2=192.168.11.132:2888:3888server.3=192 ...

spark的安装

发表于2020-08-08|大数据|大数据•安装教程

安装前准备启动zookeeper集群启动Hadoop集群上传并解压spark2.2.0（版本2以上使用jdk1.8以上）在spark创建logs文件夹，pids文件夹在hdfs上创建目录hadoop fs -mkdir -p hdfs://ns/spark/eventlog 安装步骤1.配置环境变量 1234cd /etc/profileexport SPARK_HOME=/home/ldl/software/spark-2.2.0export PATH=$PATH:$SPARK_HOME/bin使其生效source /etc/profile 2.修改spark.env.sh配置文件 1234567891011121314151617export JAVA_HOME=/usr/local/jdk1.8#export SCALA_HOME=/e3base/scala#export SCALA_LIBRARY_PATH=${SPARK_LIBRARY_PATH}#export IN_HOME=/e3baseexport HADOOP_HOME=/home/ ...

数据库设计规范

发表于2020-07-19|开发手册|数据库设计

前言该MySQL规范于网上搜集，包括一些阿里和业界的一些规范，并对一些规范稍作说明，仅用作学习和查阅使用以下所有规范会按照【强制】、【建议】两个级别进行标注，遵守优先级从高到低数据库【强制】库的名称格式：库的名称必须控制在32个字符以内，业务系统名称_子系统名，同一模块使用的表名尽量使用统一前缀【强制】创建数据库时必须显式指定字符集，并且字符集只能是utf8或者utf8mb4 【强制】所有数据库对象名称必须使用小写字母并用下划线分割表结构【强制】表和列的名称必须控制在32个字符以内，表名只能使用字母、数字和下划线，一律小写【强制】表名要求模块名强相关，需见名知意，命名需要与业务、产品线等相关联，如师资系统采用”sz”作为前缀，渠道系统采用”qd”作为前缀等【强制】表名不使用复数名词【强制】小数类型为 decimal，禁止使用 float 和 double 【强制】对于超过100W行的大表进行alter table，必须慎重，并在业务低峰期执行说明alter table会产生表锁，期间阻塞对于该表的所有写入，对于业务可能会产生极大影响【强制】表必备三字段：id, c ...

大数据学习感想

发表于2020-07-10|大数据|个人见解

罗嗦两句我是个干Java的，公司安排进行大数据培训（其实跟自学也差不多）其实我也挺感谢这次机会，一个程序员不应该被语言所束缚。来之前，我也曾经自学过一些关于大数据的知识，当时是为了面试，问的时候不至于一脸懵，最后也做了一个项目出来，是一个监控网站pv,uv等数值的一个程序。但这个项目急于求成，基础不牢，其实也没有学到什么。所以学习不能讲究快，它是一种积累。我们应当知其然，更知其所以然。我的Java可是实打实学了两年（从大学开始算），也只是达到了找工作的水平。这次给两个月的时间，说实话，只想着可以入门就可以了。于是怎么去学，如何利用好两个月的时间成了我一个最大的苦恼，我也曾经问过我的导师，也曾网上找过资料，收益甚微。除了理论还有自己动手实操，记笔记，知识复盘等等，俩月真的学不了太多。所以如何在有限的时间让我的学习收益达到最大。这才是我需要做的事情。其实两个月下来，我学到的不仅仅是知识，还有比技术更重要的。附个图，两个月来的笔记。心路历程学习按照导师给的大纲来的，也是由浅入深，由必修到选修。最大的感受就是越学越不明白，从Oozie开始，知道他是做什么的，但是没有一个合适的环境去使用 ...