大师网-带你快速走向大师之路 解决你在学习过程中的疑惑,带你快速进入大师之门。节省时间,提升效率

hive(数据仓库工具)

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

centos7 hadoop 单机模式安装配置

/bin/hdfs namenode -format Re-format filesystem in Storage Directory /opt/hadoop-2.7.5/tmp/dfs/name ?/sbin/start-dfs.sh 停止: ./sbin/stop-yarn.sh 浏览器查看:http://192.168.44.128:8088 image jps查看进程 image 到此,hadoop单机模式就配置成功了! 参考资料 https://blog.csdn.net/cafebar123/article/details/73500014

centos7 hive 单机模式安装配置

createDatabaseIfNotExist=true amp;characterEncoding=UTF-8 amp; 出现如下图所示即代表配置成功! image 9、简单的hive语句测试 建表: CREATE TABLE IF NOT EXISTS test (id INT,name STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY " " LINES TERMINATED BY "\n";

centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署

7(注意如果有使用python3.x的需求,不要改变python环境变量,否则3.* TO 'hive'@'%'; Adjusting ambari-server permissions and ownership... Ambari Server 'setup' completed successfully. 4.4.3将Ambari数据库脚本导入到数据库 mysql -uambari -pAmbari-123 use ambari;

spark连接hive(spark-shell和eclipse两种方式)

6.0就有了,嫌麻烦就不改代码重新贴图了) image 2.3.2 新版api package com.dkl.leanring.spark.sql import org.apache.spark.sql.SparkSession /** * 新版本spark-hive测试 */ object NewSparkHiveDemo { def main(args: Array[String]): Unit = { val spark = SparkSession .getOrCreate() import spark.implicits._ import spark.sql sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)") val data = Array((1, "val1"), (2, "val2"), (3, "val3")) var df = spark.createDataFrame(data).

spark-submit报错:Exception in thread "main" java.sql

48MB,sbt-assembly打的jar包大小194MB,将spark-scala-assembly-1.0.jar上传到服务器,然后执行submit,发现还是报同样的错,查看一下sbt-assembly日志,发现确实将oracle驱动加载上了~ 3、真正原因 这样就猜想不是缺少oracle驱动,于是上网查了好多,偶然发现可能是代码问题,下面是我写的从oracle取数的部分代码 val allTablesDF = spark.read .appName("Oracle2HiveDemo") .option("driver", "oracle.jdbc.driver.OracleDriver") .

hive查询报错:java.io.IOException:org.apache.parquet.io

1.2 建立oracle测试表 CREATE TABLE TEST ( "ID" VARCHAR2(100), "NUM" NUMBER(10,2) ) 1.3 在oracle表里插入一条记录 INSERT INTO TEST (ID, NUM) VALUES('1', 1);appName("Oracle2HiveTest") .load() //导入spark的sql函数,用起来较方便 import spark.sql //切换到test数据库 sql("use test") //将df中的数据保存到hive表中(自动建表) df.write.mode(SaveMode.Overwrite).saveAsTable(tableName) //停止spark spark.stop } } 3、在hive里查询 hive use test;

慕课网Spark SQL日志分析 - 3.Spark SQL概述

慕课网Spark SQL日志分析 - 3.Spark SQL概述 3.Spark SQL概述 1.Spark SQL前世今生 为什么要使用sql? 事实上的标准 易学易用 受众面大 Hive 类似于sql的hive sql语句,sql== mapreduce 缺点:基于mapreduce,执行效率比较低 改进:hive on tez,hive on spark,hive on mapreduce Shark hive on spark == shark(把hive解析后的作业翻译成spark作业) 优点:1.

sqoop导出数据

sqoop导出数据 应用场景1:把需要清洗的结构化数据导入到hdfs中,通过hive进行清洗后,把清洗结果导出到结构化数据表中,进行展现。 应用场景2:把需要清洗的结构化数据导入到hdfs中,通过hive进行数据分析后,把分析结果导出到结构化数据表中,进行展现。 例如:分析日志中的ip、访问时间、访问内容进行分析,把分析报告,导出到结构化数据表中,通过web展现方式给用

大数据协作框架诞生

大数据协作框架诞生 第二个问题: 当大数据分析平台中MapReduce Job和HiveQL比较多,需要定时调度,合理充分使用集群资源;此外,有很多业务,一般需要多个MapReduce 任务共同完成,那么job1、job2、job3之间的存在彼此的依赖调度。此时就需要一个调度框架来完成【多任务Job定时调度】和【多任务之间的依赖调度】,在Hadoop 2.x生态系统中,有很多类似的框架,其中Oozie是功能最

CDH|Sqoop安装及配置

CDH|Sqoop安装及配置 sqoop介绍 Sqoop:SQL-to-Hadoop 连接传统关系型数据库和Hadoop的桥梁 把关系型数据库的数据导入到Hadoop与其相关的系统(HBase和Hive)中 把数据从Hadoop系统里抽取并导出到关系型数据库里 利用MapReduce加快数据传输速度,批处理方式进行数据传输 Sqoop1 Sqoop2 两个不同版本,完全不兼容 版本号划分方式 Apache:1.

Flume第二个Agent应用

Flume第二个Agent应用 本示例是把hive中的日志按照年月日、时分方式定时写入到hdfs中的文件夹中,并且文件夹根据时间自动创建。 准备jar包 进入到hadoop-2.5.0-cdh5.3.6\hadoop-2.5.0-cdh5.3.6\share\hadoop\mapreduce1\lib下copy4个jar包到flume的lib下 复制hadoop的core-site文件到flume的conf下 cp /opt/cdh5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/core-site.xml conf/ 不复制core-site.xml会报错。 若不想复制core-site.xml文件的解决办

Oozie WorkFlow中Shell Action使用案例

Oozie WorkFlow中Shell Action使用案例 cp -r examples/apps/shell oozie-apps/ mv shell shell-hive-select touch student-select.sh #!/usr/bin/env bash + ##student select /opt/cdh5.3.6/hive-0.13.1-cdh5.3.6/bin/hive -f student-select.sql vi student-select.sql insert overwrite directory '/user/beifeng/oozie/datas/shell-hive-select/output' select dept_no,dept_name from default.dept;

Oozie WorkFlow中sqoop的命令file案例

Oozie WorkFlow中sqoop的命令file案例 复制样例 [beifeng@hadoop-senior oozie-4.0.0-cdh5.3.6]$ cp -r examples/apps/sqoop oozie-apps/ 样例重新命令 mv sqoop sqoop-import 复制mysql依赖包 [beifeng@hadoop-senior oozie-apps]$ mkdir sqoop-import/lib [beifeng@hadoop-senior oozie-apps]$ cp hive-select/lib/mysql-connector-java-5.1.27-bin.jar sqoop-import/lib/ 修改job.properties nameNode=hdfs://hadoop-senior.beifeng.com:8020 jobTracker=hadoop-senior.beifeng.com:8032 queueName=default ex

WorkFlow中Sqoop Action运行案例

/oozie-4.0.0-cdh5.3.6/oozie-apps/sqoop-import /user/beifeng/oozie-apps 运行sqoop流程job export OOZIE_URL=http://hadoop-senior.beifeng.com:11000/oozie bin/oozie job -config oozie-apps/sqoop-import/job.properties -run 查看运行结果 bin/oozie job -info JobId JobId:0000016-180315133250705-oozie-beif-W 来自上一步运行结果

Oozie WorkFlow中Hive Action使用案例

http://hadoop-senior.beifeng.com:8088/cluster 在hive中创建dept表 CREATE TABLE IF NOT EXISTS default.dept ( dept_no string COMMENT 'id', dept_name string , dept_url string ) COMMENT 'dept' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE LOCATION '/user/hive/warehouse/dept' 编写hive的sql脚本 load data local inpath '/opt/datas/dept.txt' overwrite into table dept;cloudera的oozie官方文档

hive导出数据

将会在HDFS的/home/wyp/hdfs目录下保存导出来的数据。注意,和导出文件到本地文件系统的HQL少一个local,数据的存放路径就不一样了。   三、导出到Hive的另一个表中   其实这个在《Hive几种数据导入方式》文中就用到了,这也是Hive的数据导入方式,如下操作: hive insert into table test partition (age='25') select id, name, tel from wyp;

Linux 开发环境安装总结6-(Hive安装)

createDatabaseIfNotExist=true JDBC connect string for a JDBC metastore javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver Driver class name for a JDBC metastore javax.jdo.option.ConnectionUserName root username to use against metastore database javax.jdo.option.ConnectionPassword MyNewPass4! 7.创建hive源数据库,对hive元数据库进行赋权,开放远程连接,开放localhost连接 create database hivedb; FLUSH PRIVILEGES;

工作室软件环境介绍

工作室软件环境介绍 为保证实验环境一致,避免出现一些莫名其妙的错误,请工作室成员按照以下要求安装自己的办公电脑 Tips: 1.以下超链接均为内部网络链接,从外网访问该页面无法正常下载软件。 2.安装操作系统后,务必关闭windows update以及防火墙。 工作室主机操作系统:工作室win7安装光盘,版本选择最后一个选项”旗舰版“ 办公软件:office2016 远程连接软件:SecureCRT

滴滴出行-上海,招聘:反作弊算法工程师 , 3 年以上工作经验,硕士或以上学历

滴滴出行-上海,招聘:反作弊算法工程师 , 3 年以上工作经验,硕士或以上学历 工作职责: 1、有风控/反作弊相关工作经验,风控意识敏锐,能够快速而全面进行风险点鉴别,风险场景画像,并且开发相应风控策略。 2、从海量且缺失值和噪音较多数据中,利用数据挖掘技术,进行数据梳理,字段筛选,根据不同模型完成数据准备工作,并且在此基础之上完成特定目的的聚