我们都参加过高考,据统计,高考的物理成绩确实与数学成绩有一定关系,但除此之外,还存在很多影响物理成绩的因素,例如:是否喜欢物理,用在物理上的时间等。而当我们主要考虑数学成绩对物理的影响时,就是要考察这两者之间的相关关系。 查看全文>>
大数据技术文章2019-10-10 |传智播客 |SparkMllib如何解决回归问题
基于Flume设计实现分层日志收集系统,到底有什么好处呢?我们可以先看一下,如果不分层,会带来哪些问题: 查看全文>>
大数据技术文章2019-10-10 |传智播客 |Flume分层日志收集系统
在SparkMllib中主要分为特征抽取、特征转化、特征选择,特别是在特征转化方面是从一个DataFrame转化为另外一个DataFrame,在数值型数据处理的时候我们对机器学习数据集中的样本和特征部分进行单独的处理,这里就涉及对样本的正则化操作和数值型特征的归一化和标准化的方法,今天就带大家理解这一部分的思考和认识。 查看全文>>
大数据技术文章2019-09-18 |传智播客 |SparkMllib数值型特征
Producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化控制逻辑。对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求,比如修改消息等。同时,producer允许用户指定多个interceptor按序作用于同一条消息从而形成一个拦截链(interceptor chain)。 查看全文>>
大数据技术文章2019-09-17 |传智教育 |kafka自定义拦截器教程
Hadoop的MapReduce来源于Google公司的三篇论文中的MapReduce,其核心思想是“分而治之”。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。 查看全文>>
大数据技术文章2019-09-16 |传智播客 |MapReduce编程原理
Kafka是什么?Kafka最初由LinkedIn开发,是一款基于分区、多副本的分布式控制器,基于ZooKeeper协调。它最大的特点是能够实时处理大量数据,满足各种需求场景:如基于hadoop的批处理系统、低延迟实时系统、storm/spark流媒体引擎、web/nginx日志、访问日志、消息服务等,采用scala语言编写。LinkedIn在2010贡献了Apache基金会,并成为顶级开源项目。 查看全文>>
大数据技术文章2019-09-16 |传智播客 |Kafka api
正则化是广泛应用于机器学习和深度学习中的技术,它可以改善过拟合,降低结构风险,提高模型的泛化能力,有必要深入理解正则化技术。 查看全文>>
大数据技术文章2019-09-12 |传智播客 |正则化是什么
科技进步极大丰富人类生活的同时,也给我们的生活带来了选择的困扰--如何快速的从头繁杂的数据中获取有价值的信息,推荐系统作为解决信息负载问题的有效方法,正在发挥着显著的作用;传统的推荐系统在处理大数据时存在的问题正在限制其性能的发挥。为了充分挖掘数据价值,提高推荐系统的性能和实时性,进一步有效缓解信息过载的问题,我们今天对大数据时代下的精准推荐系统进行探讨。 查看全文>>
大数据技术文章2019-09-03 |传智播客 |内容推荐系统