大师网-带你快速走向大师之路 解决你在学习过程中的疑惑,带你快速进入大师之门。节省时间,提升效率

hive(数据仓库工具)

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

KAP助力微软Power BI实现海量数据交互式分析

KAP助力微软Power BI实现海量数据交互式分析 作者:何京珂 编辑:Sammi Power BI是微软推出的行业领先的BI可视化工具,其拥有本地及云端多样的解决方案,与微软产品无缝整合,快速部署等特点令其在本地及云端都拥有广泛的应用。Power BI支持多样的数据源,包括关系型数据库SQL Server,Azure云上 的Blob存储以及HDInsight Hive等。然而随着企业信息化进程的加深,数据收集门槛的下降

记一次hive中遇到的坑

99%--99%--99%--99%...,在看到一连串的99%不断刷新的同时,我终于接受了还有错误的事实。 到底哪里出错了呢,按说数据量也并不是特别大呀,想了想,还有一个办法,就是使用hive.groupby.skewindata=true;

Spark组件简介

Spark组件简介 Spark组件 Spark Core: 包含Spark基本功能,包括任务调度,内存管理,容错机制等 内部定义了RDDs(弹性分布式数据集) 提供了许多APIs来创建和操作这些RDDs 为其他组件提供底层服务 Spark SQL Spark处理结构化数据的库,类似Hive SQL Spark Streaming 提供了API处理实时数据流 企业中用来从Kafka接收数据做实时统计 Mlib 机器学习包 支持集群上的横向扩展 Graphx 图处理库,进行图

Spark SQL数据源

appName("Spark SQL basic demo") .format("csv").load(path) 这种读取的方式和上文parquet的读取方式一致,最终都是调用load方法。只是多了一段format("json"),这是因为parquet是默认的格式,而json不是,所以必须明确声明。 还有一种简化的方式,其本质还是上述的代码: val peopleDF = spark.read.json(path) 将一个DataFrame写到json文件的方式: peopleDF.write.format("json").format("jdbc") .

Spark SQL on Yarn with Cluster mode Fails Load hiv

Spark SQL on Yarn with Cluster mode Fails Load hiv 问题描述 运行spark sql on yarn的时候发现yarn client模式跑的好好的程序,换成yarn cluster模式就不正确了,原因是hive-site.xml这文件没有被加载到Driver(也就是这时候的ApplicationMaster)的classpath里面去,貌似是直接连接了一个默认的am-container本地metastore。 看下官方文档appName("Show Hive Tables") .foreach { envKey = sys.env.get(envKey).

Impala读取HBase外部表的一个坑

Impala读取HBase外部表的一个坑 最近业务部门反应数据上报上来数据中有字段缺失。有个字段daily_amount在MQ里面是有值的,但是导入到impala后查到的确为NULL。先交代一下背景。数据平台的数据流水线如下: 数据流水线 数据上报后首先写入到MQ里,通过一个消费者将数据存入HBase中,每天通过Impala JDBC接口增量将数据以Parquet格式写入HDFS中。 1.首先想到数据有没有写到HBase中,通过H

Spark 1.6升级2.x防踩坑指南

Spark 1.6升级2.x防踩坑指南 原创文章,谢绝转载 Spark 2.x自2.x中是一行,而且内容格式也有稍微的变化,相比Spark1.6,少了Tungsten关键字;EXPLAIN中显示的HDFS路径过长的话,在Spark 2.x中会被省略为.x变成了GROUPING_ID() 如果你有一个基于Hive的UDF名为abc,有3个参数,然后又基于Spark的UDF实现了一个2个参数的abc,在2.x中,2个参数的abc会覆盖掉Hive中3个参数的abc函数,1.6对SQL的支持不如2.

基于大数据技术之电视收视率企业项目实战(hadoop+Spark)

基于大数据技术之电视收视率企业项目实战(hadoop+Spark) 通过一个电视收视率项目实战驱动讲解,项目案例是国内的一家广电企业作为非洲国家的一个运营商,以用户收视行为数据作为基础数据,通过对频道和节目的分析,采用多维度统计分析的方法挖掘用户的收视行为特征。 通过此案例可以学习大数据整体开发流程,课程是围绕一个大数据整理流程而做的教学课程,让大

如何用Apache kylin分析亚马逊产品评价

/Scripts/01-ImportData.sh 如果你没有使用Docker: 手动复制DataProcessed文件夹中的数据到你的集群gateway,编辑脚本/02-CreateTB.sql 并指定路径。 set hivevar:PathFiles=/Amazon_Review;

Kylin api 整理(部分官网未给出)

Kylin api 整理(部分官网未给出) kylin 的官网没有列出保存 cube 信息,model 信息,project等 rest api,这里通过查看源码对实际项目使用中有用到的 api 进行列举 官方文档

常见Hive调优策略

常见Hive调优策略 Hive是否执行mapreduce 因为有些sql语句是不需要走mapreduce的。比如:select *、limit。 #在配置文件中hive-site.xml设置 hive.fetch.task.conversion more Hive表创建的调优 是否创建分区表。(加快查询速率) 是否创建外部表。(多个部门使用时可以保证表的安全) 选择什么样的存储格式。(textFile,ORCFile

大数据之Hadoop初识篇

大数据之Hadoop初识篇 Hadoop介绍 (直奔主题) 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HDFS,MapReduce基本组件与扩展组件Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper和Spark等。 Hadoop基本组件 HDFS组件:提供了一种跨服务器的弹性数据存储系统,在由普通PC组成的集群上

使用crontab调度hadoop任务和机器学习任务的正确姿势

else log_info "($ret)$1 does NOT exist on Hadoop" return 2; } 其实,hive任务的表的内容也是存储在HDFS上,因此也可以用检查HDFS路径的方法,来判断前置hive任务是否已经结束。可以用下面命令查看hive表对应的HDFS路径。 hive -e "desc formatted $tablename;" " log_info $create_table_sql $hive -e "$create_table_sql" local upload_sql="load data local inpath '$data_home/$bizdate/$predict_file' into table $target_table_name partition(pt=${bizdate});

基于Hadoop大数据分析应用场景与实战

基于Hadoop大数据分析应用场景与实战 为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。 一、Hadoop的应用业务分析 大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。

HiveServer2-HA-安全架构

HiveServer2 每个执行线程如果需要与后面的 Metastore 通信也是使用 Thrift 连接。 ThrfitSasl 看过 kerberos体系下的应用(yarn,spark on yarn) 的用户可能已经对 ThrfitSasl 连接方式了解了,我们这里将描述一下通信过程: image.png 我们的 ThrfitSasl 接受两种验证, KERBEROS 认证以及由自己下发给客户端的 Token;

免费课程 | 大数据系列免费视频教程(Linux、Hadoop、Spark、Kylin、Hive等)

免费课程 | 大数据系列免费视频教程(Linux、Hadoop、Spark、Kylin、Hive等) 感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习,问答、求职一站式搞定! 天善智能社区地址:https://www.hellobi.com/ 课程地址:https://edu.hellobi.com/course/93 天善智能社区地址:https://www.hellobi.com/ 课程地址:https://edu.hellobi.com/cour

mac环境 整合hive和elasticsearch

7、验证: http://localhost:9200/employees/list/_search 补充: es原生的展示不是很方便,建议同学们安装head插件 1、 git clone git://github.com/mobz/elasticsearch-head.git 2、cd elasticsearch-head 3、brew install node 4、npm -g install grunt 5、修改es yml配置文件,增加: http.cors.enabled: true http.cors.allow-origin: "*" 6、grunt server 7、访问http://localhost:9100 ok,至此hive和es的整合结束。

mac环境下安装hive

mac环境下安装hive 本文主要讲述在mac环境下安装hive,目标读者为大数据初学者或者有意进入大数据行业的研发人员。 阅读本文前请先阅读《mac环境下hadoop安装》 需要先安装mysql ,https://dev.mysql.com/downloads/file/?

Presto学译 | 3. 配置Hive连接器以查询Hive数据

Presto学译 | 3. 配置Hive连接器以查询Hive数据 本文为官方文档译文。仅限交流使用。 系列目录 概述 使用 Presto 查询Hive中的数据恐怕是最常用的了。Hive 连接器就允许查询在 Hive 数据仓库中的数据。Hive 由下面三个组件组成: 存储在 HDFS 或者 Amazon S3 中的各种各样格式的数据文件。 用于映射模式与表的元数据。这些元数据被存储在一个数据库中,比如 MySQL, 并且可以用过 Hive 的