大师网-带你快速走向大师之路 解决你在学习过程中的疑惑,带你快速进入大师之门。节省时间,提升效率

如何正确认识“AI+广告营销”的应用落地场景?

如何正确认识“AI+广告营销”的应用落地场景? 自2016年,DeepMind开发的AlphaGo围棋程序战胜人类顶尖职业棋手后,“人工智能”、“AI”成为各行各业都关注的热词,广告营销行业也不例外。然而,之前“大数据营销”的概念尚未退潮,“人工智能+广告营销”又来袭,它们究竟是新瓶装旧酒、纯属概念炒作?还是职业广告人的潜在威胁? 本文将厘清关于广告营销和人工智能

了解亚原子世界的名词——超弦、M理论为谁而生?知之甚少的宇宙总质量

了解亚原子世界的名词——超弦、M理论为谁而生?知之甚少的宇宙总质量 1 俄罗斯套娃——粒子的世界 1911年 一位 叫C T R 威尔逊 的英国科学家,经常跑去山顶研究云层的结构,他突然想到应该有简单的方法。回到剑桥的卡文迪许实验室,他建起了一个人工云室,可以创建一个云层模型。 意外发生了: 当威尔逊使一个a粒子加速通过云室制造人工云团的时候,它留下一条明显

区块链不能做什么?

区块链不能做什么? 但凡提到区块链的文章,都会强调“去中心化”、“不可篡改”等特(xue)性(tou)来吸人眼球。仿佛用区块链就能在不久的将来构建一个理想的乌托邦,但是拥有这么多特性的区块链到底怎么来构建这个乌托邦,却没人能说得清楚。毕竟现在的行业还处于初期探索,大部分注意力都集中在技术层面,技术尚未成熟大家就想要抢占市场,难免会不愿意承认“看

单机搭建Hadoop3环境为CentOS7/JDK1.8

/bin/hdfs namenode -format 然后执行一下namenode和datanode的守护进程 ./sbin/start-yarn.sh 即可看到resourcemanager和nodemanagers在启动 执行命令: .

Hbase安装搭建并部署还有可能遇到的坑

Hbase安装搭建并部署还有可能遇到的坑 1.前提条件: JDK1.8 Hadoop 2.7 以上版本部署完毕 2.安装Hbase 在官网下载安装包,推荐1.hbase.cluster.distributed true hbase.rootdir hdfs://192.168.21.77:9000/hbase hbase.zookeeper.property.dataDir /opt/soft/hbase-1.4.7/zkData hbase.zookeeper.property.dataDir /opt/soft/hbase-1.4.7/zkData hbase.unsafe.stream.capability.enforce true 4.启动Hbase 去bin目录下启动 执行 .

统计学习方法|SVM

统计学习方法|SVM 01 起 在统计学习方法这个板块中,我们学习了多个分类算法,比如逻辑斯蒂回归,在逻辑斯蒂回归模型中,我们对数据集有预先的假设——数据集满足逻辑斯蒂分布。 今天我们学习另外一种分类模型,这种分类模型对数据集没有做任何假设,它的适用性更广,当我们尚不明确数据分布特性时,使用这个模型分类可能更合适。 这个模型叫SVM,中文名叫支持向

带你换个姿势入门大数据

这依然是个没有标准答案的问题,有些人可能觉得几十 G 就够大了,也有人觉得几十 T 也还好。当你不知道多大叫大,或者当你不知道该不该用大数据技术的时候,通常你就还不需要它。 而当你的数据多到单机或者几台机器存不下,即使存得下也不好管理和使用的时候; 然后通过 explain 命令来查看下面这条 select 语句的执行计划: explainselectprovince,count(*)fromtest2018groupbyprovince;

MapReduce执行过程(长文)

MapReduce执行过程(长文) 参考资料: Hadoop权威指南第四版第七章 一、MapReduce是个what? 首先说下Hadoop 的四大组件: HDFS:分布式存储系统。 MapReduce:分布式计算系统。 YARN: hadoop 的资源调度系统。 Common: 以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等。 Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop的数据分析 应用”的核心框架。 Map

data science: chi-square

data science: chi-square Data Science Day 3:Chi-square Test Learning Objectives 1.DefinetheChi-Squaredistribution 2.Explainthe 3Chi-squaretest applications scenario TheChi- Square distributionis thesum of variance(squared standard normal deviates). Note:There are two categorical variables from one sample space 2*.Test the Goodness of Fit (Pearson): Whether the sample categorical data are consistent with a hypothesized distribution. Thanks very much to Renee Wu, Ali Motamedi~ Happy learning!

非平衡数据集与准确度悖论

非平衡数据集与准确度悖论 分类问题是机器学习的研究重点,而后者在实践中常常碰到非均衡数据集这个难题。非均衡数据集(imbalanced data)又称为非平衡数据集,指的是针对分类问题,数据集中各个类别所占比例并不平均。 比如在网络广告行业,需要对用户是否点击网页上的广告进行建模。为了处理方便,我们记“点击广告”为类别1,“不点击广告”为类别0。因此这是一

大数据存储平台之异构存储实践

大数据存储平台之异构存储实践 经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。 这就产生了一种热和冷数据,对需要频繁访问的数据我们称之为“热”数据,反之我们称之为”冷”数据,而处于

什么样的大数据平台架构,才是最适合你的?

什么样的大数据平台架构,才是最适合你的? 技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径。   它不一定具有通用性,但从一定程度讲,这个架构可能比BAT的架构更适应大多数企业的情况,毕竟,大多数企业,数据没到那个份上,也不可能完全自研,商业和开源的结合可能更好一点,权当抛砖引玉。   大数据平

开始搞事情 - 《每日五分钟搞定大数据》

开始搞事情 - 《每日五分钟搞定大数据》 《每日五分钟搞定大数据》公众号:大叔据每周不定时更新 想了很久,准备开始写一系列的文章,记录这些年来的所得所想,感觉内容比较多不知从哪里开始,画了个思维导图确定了大的方向,大家都知道大数据的主流技术变化迭代很快,不断会有新的东西加入,所以这张图里内容也会根据情况不断添加。细节的东西我会边写边定,

一篇文章透彻了解zookeeper应用场景-《每日五分钟搞定大数据》

一篇文章透彻了解zookeeper应用场景-《每日五分钟搞定大数据》 《每日五分钟搞定大数据》公众号:大叔据每周不定时更新 点击看《每日五分钟搞定大数据》完整思维导图 Zookeeper作为一个分布式协调系统提供了一项基本服务:分布式锁服务,分布式锁是分布式协调技术实现的核心内容。像配置管理、任务分发、组服务、分布式消息队列、分布式通知/协调等,这些应用实际上

一篇文章搞懂DataSet、DataFrame、RDD-《每日五分钟搞定大数据》

println(col2) col1 case _= "" } 2. 对比: 2.1 RDD: 1、RDD一般和spark mlib同时使用 2、RDD不支持sparksql操作 2.2 DataFrame和Dataset相同点: 1、DataFrame与Dataset一般与spark ml同时使用 2、DataFrame与Dataset均支持sparksql的操作,比如select,groupby之类,还能注册临时表/视窗,进行sql语句操作,如 dataDF.createOrReplaceTempView("tmp") spark.sql("select ROW,DATE from tmp where DATE is not null order by DATE").options(saveoptions).

大数据03-整合 Flume 和 Kafka 收集日志

大数据03-整合 Flume 和 Kafka 收集日志 有了之前的介绍,我们可以使用 Flume 和 Kafka 一起来完成项目日志输出到 kafka,然后编程消费者进行日志处理。 1、示例图 示例图 下面蓝色的是我们需要修改的 2、配置 flume 在 A 机器上,(也可以在 C 机器上,这里为了方便) flume 中新增一个配置文件 avro-mem-kafka.conf 注意 bootstrap.servers 的写法,需要和版本对应 # Base avro-mem-kafka.sources = avro-sou

大数据04-Hadoop 基础

大数据04-Hadoop 基础 下载hadoop-2.7.5进行演示 1、解压 2、配置 配置文件在$HADOOP_HOME/etc/hadoop/目录下 hadoop-env.sh 修改他的 JAVA_HOME core-site.xml 配置默认文件系统和临时目录 fs.defaultFS hdfs://localhost:8020 hadoop.tmp.dir /app/hadoop-2.7.5/data hdfs-site.xml 配置副本数 dfs.replication 1 vim slaves 修改域名 namenode 格式化 在$HADOOP_HOME/bin 目录下 .

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构

/sbin/hadoop-daemon.sh --script hdfs start datanode 如果考虑启动secondary namenode,可以用同样的方法启动 下面我们启动yarn,先启动resourcemanager,执行: ./sbin/yarn-daemon.sh start nodemanager 如果正常启动,可以看到启动了相应的进程,并且logs目录下生成了相应的日志 然后启动MapReduce JobHistory Server,执行: ./bin/hadoop fs -put input /input[root@MYAY hadoop]# .OK Time taken: 0.721 seconds hive show databases;