第6章音乐魔盒案例 Ver1.6-20221128

Imagemap
第6章音乐魔盒案例
Ver1.6-20221128概述训练要点回顾并熟练使用python进行数据采集熟练掌握sqoop的使用,将数据从mysql采集到hive熟练掌据在hive上完成数据处理熟练掌握sqoo的使用,将数据从hive转存到mysql训练数据据的可视化,将mysql的数据取出并完成可视化需求说明1,本实训最终要实现带多功能的音乐魔盒,能够智能推荐音乐的多终端应用(WEB,A ...2,本实训目前要实现的功能是通过同学采集音乐数据,分析音乐数据,对歌手进行统计, ...实现步骤1,数据采集:使用scrapy框架实现音乐网站的数据采集,存入mysql数据库2,数据转存:使用sqoop将mysql的数据转存到hive库中3,数据分析:在hive中使用HSQL完成数据的统计分析4,数据存储:使用sqoop将hive的数据转存到mysql中5,数据可视:使用python将mysql的结果数据显示出来并上传到web上作业要求1,对实训目前要实现的功能进行描述、架构设计、详细设计2,对实训过程中源码、操作步骤、运行结果截图3,对过程出现的问题,如何处理进行收集4,整理上述内容,按照实训报告模板完成报告内容视频学习综合项目实训实训报告实训报告模板模板下载V1.0.5流程设计数据采集python采集数据到DB采集到mysql采集到Mongodb数据存储使用sqoop转换数据到hdfs转移到hive转换到hbase数据分析使用hive分析数据生成hive结果使用hbase查询和处理数据生成hbase结果数据存储使用sqoop将hive结果转移数据到mysql转移到mysql使用sqoop将hbase结果转移到mysql转移到mysql数据可视将mysql中的结果数据显示到web上方案实现库表设计在mysql上创建采集表CREATE TABLE `music_data` (
  `mid` int( ...在mysql上创建收集表CREATE TABLE `test`.`sum_artist_name` (
 ...数据采集环境准备安装Pycharm官网pycharm社区版本下载chrome&chromdriver安装方法一:根据本机的chrome获取chromedriver,可从镜像网站下载下载方法二:使用相同的94版本的chrome和chromedriverchrome_94下载chromedriver_94下载安装注意使用方法二安装chrome,需先删除本机的chrome,然后通过控制面版进入系统 ...采集课程参考删除任务:开始->管理任务->任务计划程序->删除与google相关的任务chromedriver压缩包下载后,进行解压,将解压后的chromedrive ...如图pip安装依赖库在windows的cmd.exe命令行下安装如下pip.txt中的命令行,安培训 ...https://gitee.com/big-data-lab/share/blo ...python采集到mysql备注:以下使用gitee.com,需要先注册并登陆下载源码目录https://gitee.com/big-data-lab/share/tre ...进入pycharm后将该目录打开,将music_scrapy下的musics设置 ...如图修改采集者:music_scarpy->musics->musics-pipel ...self.collector ='张三' # 请改为自已的名字运行脚本:music_scrapy->musics->musics->_init ...如图采集结果验证执行脚本:music_scrapy->muiscs->musics->check ...源脚本如图数据存储mysql采集到hive以下命令中'张三'需更换为本人的中文姓名,需与采集数据时使用的名字一致;myna ...sqoop import   --connect "jdbc:mysql://h ...采集结果验证通过hive查验use myname;
show tables;
select count(1) ...如果count的结果>0说明成功导入数据数据分析hive上词频统计在hive中执行下载脚本use myname;
drop table wc_song_name;
cre ...统计结果验证通过hive执行下面脚本核验use myname;
show tables;
select count(1) ...如果两个count的结果>0说明成功统计数据存储hive转存到mysqlsqoop export --connect "jdbc:mysql://hom ...转存结果验证执行脚本:music_scrapy->muiscs->musics->check ...源脚本如图数据可视jupyter上展示数据打开jupyterhttp://home.hddly.cn:8888 密码:12345678导入bigdata库File->New->Terminal,运行如下:首次安装:pip install bgutils-hddly更新:pip install --upgrade bgutils-hddly创建脚本进入目录:/worker/C4/班级名称/选择+号->NodeBook->Python3(ipykernel)右击新生成的文件:Untitled.ipynb->Rename->将文件名改为2 ...如图在右侧的文件内容框中复制粘贴下方的脚本,根据脚本中的提示修改内容如图编写脚本备注:以下使用gitee.com,需要先注册并登陆https://gitee.com/big-data-lab/share/blo ...结果检视http://home.hddly.cn:90/stud/P022001/查看该目录下是否含有本人学号的图片文件参考如何连接到远程mysql库上查询验证使用workbench工具连接到 mysql://home.hddly.cn:5 ...连接配置如图:
connectname: remotetest
hostname ...如图新建查询:select collector,count(1) from test.musi ...版本历史Ver1.0-20221015初始版本,发布项目和实训报告模板Ver1.1-20221017加入chrome和chromedriver下载修改采集脚本music_scrapy.rarVer1.2-20221018修改可视化的脚本的下载方式,改为压缩文件链接方式Ver1.3-20221020脚本使用gitee.com的Ver1.4-20221025增加了脚本执行后的验证Ver1.5-20221118修复gitee源码有误的地址Ver1.6-20221128添加视频学习
hide
第6章音乐魔盒案例
Ver1.6-20221128
hide
方案实现