数据分析和数据挖掘相关模块简介与安装 数据处理的一般流程

首页 » Python » 数据分析和数据挖掘相关模块简介与安装 数据处理的一般流程

什么是数据分析

数据分析是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律,使得数据的价值最大化。

—-分析用户的消费行为
制定促销活动的方案
制定促销时间和力度
计算用户的活跃度
分析产品的回购力度
 
—-分析广告点击率
决定投放时间
制定广告定向人群方案
决定相关平台的投放
….

数据分析是用适当的方法对收集来的数据进行分析,帮助人们做出判断,以便来取适当的行动。例如:

  • 保险公司从大量赔付申请数据中判断哪些为骗保的可能。
  • 支付宝通过从大量的用户消费记录和行为自动调整花呗的额度。
  • 短视频平台通过用户的点击和观看行为数据,针对性的给用户推送喜欢的视频。

为什么学数据分析

有岗位的需求(数据竞赛平台)、是Python数据科学的基础、是机器学习的基础。

数据分析实现流程

  • 提出问题
  • 准备数据
  • 分析数据
  • 获得结论
  • 成果可视化

开发环境介绍

鳄鱼君Ba这里使用的是Anaconda的jupyter进行,如果需要进行配置的话,可参考:Windows下Anaconda的安装步骤及使用教程 Anaconda介绍Anaconda中Jupyter的基本使用这两篇文章。

相关模块简介

  • numpy:可以高效的处理数据,提供数组支持。很多的模块都依赖它,比如pandas、scipy、matplotlib,所以这个模块是基础。
  • pandas(重点):使用最多的模块,主要用于进行数据探索和数据分析。
  • matplotlib:作图模块解决可视化问题。
  • scipy:主要进行数值计算,同时支持矩阵运算,并提供了很多高等数据处理功能,比如积分、傅里叶变换、微分方程求解等。
  • statsmodels:主要用于统计分析。
  • Gensim:主要用于文本挖掘
  • sklearn、keras:前者机器学习,后者深度学习。

相关模块安装

直接pip安装就完了。这里给出模块的安装顺序与建议方式:

1、numpy和mkl(下载安装)
2、pandas(pip安装)
3、scipy(下载安装)
4、statsmodels(pip安装)
5、Gensim(pip安装)

数据处理的一般流程

数据收集——数据预处理——数据处理——数据展示

数据收集,可以通过网络爬虫,公开数据集,或者其它途径收集的数据。

数据预处理,归一化、二值化、维度变换、去重、无效数据过滤。

数据处理,数据排序、数据查找、数据统计分析。

数据展示,列表、图表、动态交互图形。

未经允许不得转载:作者:鳄鱼君, 转载或复制请以 超链接形式 并注明出处 鳄鱼君
原文地址:《数据分析和数据挖掘相关模块简介与安装 数据处理的一般流程》 发布于2020-05-09

分享到:
赞(0) 赏杯咖啡

评论 抢沙发

4 + 7 =


文章对你有帮助可赏作者一杯咖啡

支付宝扫一扫打赏

微信扫一扫打赏

Vieu4.6主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录
切换登录

注册