博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark API编程动手实战-07-join操作深入实战
阅读量:5782 次
发布时间:2019-06-18

本文共 453 字,大约阅读时间需要 1 分钟。

hot3.png

我们在hdfs的/data/join创建两个文件:

上传第一个文件名称为1.txt

内容第一列是日期,第二列uid(普通用户id)

上传第二个文件名称为2.txt

内容第一列是日期,第二列uid(普通用户id)

执行上传到hdfs:

hdfs命令行查询:

web控制台管理查询:

首先在命令行中设置日期格式:

然后声明两个case class:Register、Login

读取第一个文件(1.txt)并进行操作:

take操作:

该操作是首先读取文件的内容,然后以Tab键进行分词,然后以第二列为key,每一行的所有内容为Value构建起的Register作为Value的值;

读取第二个文件(2.txt)并进行操作:

take操作:

下面对文件执行join操作:

取出join操作的结果:

take结果:

或者把执行结果保存到HDFS:

到Web控制台上查看执行结果:

在hdfs查看一下其执行结果:

转载于:https://my.oschina.net/ghostmanyue/blog/375689

你可能感兴趣的文章
20180702搭建青岛RAC记录
查看>>
安装部署TIDB分布式数据库
查看>>
Spring Security OAuth 实现OAuth 2.0 授权
查看>>
linux文件及简单命令学习
查看>>
dubbo源码分析-架构
查看>>
新 Terraform 提供商: Oracle OCI, Brightbox, RightScale
查看>>
6套毕业设计PPT模板拯救你的毕业答辩
查看>>
IT兄弟连 JavaWeb教程 JSP与Servlet的联系
查看>>
Windows phone 8 学习笔记
查看>>
linux并发连接数:Linux下高并发socket最大连接数所受的各种限制
查看>>
洛谷——P2176 [USACO14FEB]路障Roadblock
查看>>
详解区块链中EOS的作用。
查看>>
我的友情链接
查看>>
mysql-error 1236
查看>>
sshd_config设置参数笔记
查看>>
循序渐进Docker(一)docker简介、安装及docker image管理
查看>>
jsp页面修改后浏览器中不生效
查看>>
大恶人吉日嘎拉之走火入魔闭门造车之.NET疯狂架构经验分享系列之(四)高效的后台权限判断处理...
查看>>
Oracle HRMS,PeopleSoft HR,SAP HR区别
查看>>
信号量实现进程同步
查看>>