大师网-带你快速走向大师之路 解决你在学习过程中的疑惑,带你快速进入大师之门。节省时间,提升效率

统计学习方法|SVM

统计学习方法|SVM 01 起 在统计学习方法这个板块中,我们学习了多个分类算法,比如逻辑斯蒂回归,在逻辑斯蒂回归模型中,我们对数据集有预先的假设——数据集满足逻辑斯蒂分布。 今天我们学习另外一种分类模型,这种分类模型对数据集没有做任何假设,它的适用性更广,当我们尚不明确数据分布特性时,使用这个模型分类可能更合适。 这个模型叫SVM,中文名叫支持向

带你换个姿势入门大数据

这依然是个没有标准答案的问题,有些人可能觉得几十 G 就够大了,也有人觉得几十 T 也还好。当你不知道多大叫大,或者当你不知道该不该用大数据技术的时候,通常你就还不需要它。 而当你的数据多到单机或者几台机器存不下,即使存得下也不好管理和使用的时候; 然后通过 explain 命令来查看下面这条 select 语句的执行计划: explainselectprovince,count(*)fromtest2018groupbyprovince;

MapReduce执行过程(长文)

MapReduce执行过程(长文) 参考资料: Hadoop权威指南第四版第七章 一、MapReduce是个what? 首先说下Hadoop 的四大组件: HDFS:分布式存储系统。 MapReduce:分布式计算系统。 YARN: hadoop 的资源调度系统。 Common: 以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等。 Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop的数据分析 应用”的核心框架。 Map

data science: chi-square

data science: chi-square Data Science Day 3:Chi-square Test Learning Objectives 1.DefinetheChi-Squaredistribution 2.Explainthe 3Chi-squaretest applications scenario TheChi- Square distributionis thesum of variance(squared standard normal deviates). Note:There are two categorical variables from one sample space 2*.Test the Goodness of Fit (Pearson): Whether the sample categorical data are consistent with a hypothesized distribution. Thanks very much to Renee Wu, Ali Motamedi~ Happy learning!

非平衡数据集与准确度悖论

非平衡数据集与准确度悖论 分类问题是机器学习的研究重点,而后者在实践中常常碰到非均衡数据集这个难题。非均衡数据集(imbalanced data)又称为非平衡数据集,指的是针对分类问题,数据集中各个类别所占比例并不平均。 比如在网络广告行业,需要对用户是否点击网页上的广告进行建模。为了处理方便,我们记“点击广告”为类别1,“不点击广告”为类别0。因此这是一

大数据存储平台之异构存储实践

大数据存储平台之异构存储实践 经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。 这就产生了一种热和冷数据,对需要频繁访问的数据我们称之为“热”数据,反之我们称之为”冷”数据,而处于

什么样的大数据平台架构,才是最适合你的?

什么样的大数据平台架构,才是最适合你的? 技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径。   它不一定具有通用性,但从一定程度讲,这个架构可能比BAT的架构更适应大多数企业的情况,毕竟,大多数企业,数据没到那个份上,也不可能完全自研,商业和开源的结合可能更好一点,权当抛砖引玉。   大数据平

开始搞事情 - 《每日五分钟搞定大数据》

开始搞事情 - 《每日五分钟搞定大数据》 《每日五分钟搞定大数据》公众号:大叔据每周不定时更新 想了很久,准备开始写一系列的文章,记录这些年来的所得所想,感觉内容比较多不知从哪里开始,画了个思维导图确定了大的方向,大家都知道大数据的主流技术变化迭代很快,不断会有新的东西加入,所以这张图里内容也会根据情况不断添加。细节的东西我会边写边定,

一篇文章透彻了解zookeeper应用场景-《每日五分钟搞定大数据》

一篇文章透彻了解zookeeper应用场景-《每日五分钟搞定大数据》 《每日五分钟搞定大数据》公众号:大叔据每周不定时更新 点击看《每日五分钟搞定大数据》完整思维导图 Zookeeper作为一个分布式协调系统提供了一项基本服务:分布式锁服务,分布式锁是分布式协调技术实现的核心内容。像配置管理、任务分发、组服务、分布式消息队列、分布式通知/协调等,这些应用实际上

一篇文章搞懂DataSet、DataFrame、RDD-《每日五分钟搞定大数据》

println(col2) col1 case _= "" } 2. 对比: 2.1 RDD: 1、RDD一般和spark mlib同时使用 2、RDD不支持sparksql操作 2.2 DataFrame和Dataset相同点: 1、DataFrame与Dataset一般与spark ml同时使用 2、DataFrame与Dataset均支持sparksql的操作,比如select,groupby之类,还能注册临时表/视窗,进行sql语句操作,如 dataDF.createOrReplaceTempView("tmp") spark.sql("select ROW,DATE from tmp where DATE is not null order by DATE").options(saveoptions).

大数据03-整合 Flume 和 Kafka 收集日志

大数据03-整合 Flume 和 Kafka 收集日志 有了之前的介绍,我们可以使用 Flume 和 Kafka 一起来完成项目日志输出到 kafka,然后编程消费者进行日志处理。 1、示例图 示例图 下面蓝色的是我们需要修改的 2、配置 flume 在 A 机器上,(也可以在 C 机器上,这里为了方便) flume 中新增一个配置文件 avro-mem-kafka.conf 注意 bootstrap.servers 的写法,需要和版本对应 # Base avro-mem-kafka.sources = avro-sou

大数据04-Hadoop 基础

大数据04-Hadoop 基础 下载hadoop-2.7.5进行演示 1、解压 2、配置 配置文件在$HADOOP_HOME/etc/hadoop/目录下 hadoop-env.sh 修改他的 JAVA_HOME core-site.xml 配置默认文件系统和临时目录 fs.defaultFS hdfs://localhost:8020 hadoop.tmp.dir /app/hadoop-2.7.5/data hdfs-site.xml 配置副本数 dfs.replication 1 vim slaves 修改域名 namenode 格式化 在$HADOOP_HOME/bin 目录下 .

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构

/sbin/hadoop-daemon.sh --script hdfs start datanode 如果考虑启动secondary namenode,可以用同样的方法启动 下面我们启动yarn,先启动resourcemanager,执行: ./sbin/yarn-daemon.sh start nodemanager 如果正常启动,可以看到启动了相应的进程,并且logs目录下生成了相应的日志 然后启动MapReduce JobHistory Server,执行: ./bin/hadoop fs -put input /input[root@MYAY hadoop]# .OK Time taken: 0.721 seconds hive show databases;

使用Zookeeper解决微服务架构下分布式事务问题

使用Zookeeper解决微服务架构下分布式事务问题 准备工作 单机调试zookeeper集群的话,我们需要在虚拟机里虚拟出几台“微服务器“,做这一步操作之前需要在系统中预留出来8G以上磁盘空间,4G以上物理内存。 [if ! } NodeCache Node Cache只是监听某一个特定的节点是否存在和数据变化 @Test /** NodeCache监听单个节点 */ publicvoidt17()throwsException { NodeCache nodeCache= newNodeCache(client, "/order");

Chi-Square 用途1

Chi-Square 用途1 Data Science Day 4: Chi-Square test application 1: TestGoodness of a fit. We use the followingpythoncode to acquire the p-value: Chisquare(f_obs=[18,15,5,8,4,3], f_exp=[10,5,7,18,10,11]) For this particular example, thep-value=6.02e-08, which is significantlysmaller than 0.05. Example 2: Data visualization Interpretation We will graph a Chi-square distribution with degree 5 and size 1000, and use Kernel Density Estimation to fit the graph.

「运输业案例」中国2007至2016年货物运输情况统计

「运输业案例」中国2007至2016年货物运输情况统计 目的 通过对2007至2016年中国货物运输情况分析,帮助物流行业了解当前中国各种交通方式的物流情况及影响因素,从而提高整个物流行业的发展。 摘要 应该增加哪些交通运输方式的物流投入并以何种方式进行有效的干预一直是物流行业想要弄清楚的热点问题。本文通过对2007至2016年中国货物运输情况进行分析,发现货物运输

零基础学习大数据的33个知识点整理

零基础学习大数据的33个知识点整理 零基础学习大数据的33个知识点整理 1.数据、信息和知识是广义数据表现的不同形式。 2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识 3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘 4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.