Zookeeper 是在 Java 中客户端主类,负责建立与 zookeeper 集群的会话, 并提供方法进行操作。 org.apache.zookeeper.Watcher 查看全文>>
大数据技术文章2018-11-16 |传智播客 |Zookeeper,大数据
整个Map阶段流程大体如上图所示。简单概述:input File通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘,当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并,生成最终的正式输出文件,然后等待reduce task来拉数据。 查看全文>>
大数据技术文章2018-10-24 |传智播客 |传智播客,大数据
首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 查看全文>>
大数据技术文章2018-10-24 |传智播客 |传智播客,大数据,hadoop
1.1. 安装JDK 因为Scala是运行在JVM平台上的,所以安装Scala之前要安装JDK。 查看全文>>
大数据技术文章2018-09-30 |传智播客 |大数据,Scala
构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源 查看全文>>
大数据技术文章2018-09-11 |传智播客 |传智播客,Spark运行架构
Spark 在生产环境下经常会面临transformation的RDD非常多(例如一个Job中包含1万个RDD)或者具体transformation的RDD本身计算特别复杂或者耗时(例如计算时长超过1个小时),这个时候就要考虑对计算结果数据持久化保存 查看全文>>
大数据技术文章2018-09-11 |传智播客 |传智播客,spark