收到很多同学私信:我想学数据科学,但不知道怎么入门?
今天,圣普伦和大家分享,作为一个初学者,应该如何开始学习数据科学。数据科学和其他岗位一样,需要基础的知识架构与积累,如果你缺少基础的知识背景,那么建议先把下面这几项基础打牢。
一、数学与统计
有的人一上来就去找各种库,或者一上来就想学机器学习算法。我建议初学者先学好数学和统计学,这是数据科学的根基。
数学里的积分/微积分大家大学的时候都学过,如果你忘记了,就再复习一遍。另外,线性代数也是一样,大家都学过。
统计学,这就不是每个人都学过的课程了。统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。如果没有数据统计,那么数据分析就无从谈起。
二、学习基础的编程知识
如果你本身是一名程序员,那这步可以省去。如果你本身就不懂编程,就要从0开始学编程了,编程语言有很多,什么c语言,c ,java等等,但这些对新手不友好,建议从学习Python开始,因为它学起来最简单,最全世界内也最受欢迎。Python有很多免费学习的渠道,比如bilibili,谷歌的Python类以及圣普伦的python免费课程。在学习python之余,顺带了解一下SQL,不需要学得特别深,打个基础即可。
三、数据获取
前面的基础打好了,接下来你需要知道从哪里找数据。当然,如果是大企业的话,会有自己的数据库,但其他企业就不一定了,没有大量的数据,你的机器学习、神经网络就无法支撑,所以如何获取数据也是一项硬技能。
我们先要区分数据的来源。
数据来源很多。但是对于研究者来说,网络数据和文献数据比较常用。
目前主流(合法)的网络数据方法,主要分为3类:
开放数据集下载;
- API读取
- 爬虫爬取(Crawling)
四、常用的Python数据库
1、Pandas是一个Python包,旨在通过“标记”和“关系”数据进行工作,简单直观。它用于快速简单的数据操作、聚合和可视化,是数据整理的完美工具。
2、NumPy是专门为Python中科学计算而设计的软件集合,它为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库提供了NumPy数组类型的数学运算向量化,可以改善性能,从而加快执行速度。
3、SciPy是一个工程和科学软件库,包含线性代数,优化,集成和统计的模块。SciPy库的主要功能是建立在NumPy上,通过其特定子模块提供有效的数值例程,并作为数字积分、优化和其他例程。
4、Theano是一个Python软件包,它定义了与NumPy类似的多维数组,以及数学运算和表达式。此库是被编译的,可实现在所有架构上的高效运行。
5、TensorFlow是数据流图计算的开源库,旨在满足谷歌对训练神经网络的高需求,并且是基于神经网络的机器学习系统DistBelief的继任者,可以在大型数据集上快速训练神经网络。
6、Keras是一个用Python编写的开源的库,用于在高层的接口上构建神经网络。它简单易懂,具有高级可扩展性。
五、机器学习算法和概念
如果你看到了这里,说明你学习数据科学的决心很大。那我们继续吧。机器学习,顾名思义,是机器(计算机)自我学习的过程。通过对计算机算法的研究,自动提升经验。根据数据和业务问题的类型,使用预定义的算法建立模型,利用模型在给定的数据上进行训练,从而对新数据得出结论。您将了解监督机器学习和无监督机器学习之间的区别,同时,掌握各种重要的算法,如回归,分类,决策树,随机森林等。
机器学习算法包括:
- 线性回归
- 逻辑回归
- K近邻
- 决策树
- 朴素贝叶斯
- 支持向量机
- 神经网络
- 随机森林
- AdaBoost
- 梯度提升
- XGBoost
- 主成分分析
了解这些机器学习的概念
- AUC和ROC
- 自助抽样法
- 集成学习,装袋和Boosting
- 标准化与标准化
- 偏差和方差权衡
- 正则化
- 混矩阵和相关指标
- 数据科学项目实践
前面几步你都完成了,那么接下来就是检验你学得怎么样的时候了。检验的方法就是做一个实际的项目,你可以去参加一些比赛,或者为朋友的公司做项目,你还可以利用圣普伦的实践项目来检验自己的能力水平。
数据科学家入门
Simplilearn圣普伦的数据科学家课程由 Ronald Van Loon 设计,被评为世界十大大数据和数据科学影响者之一。通过Simplilearn 圣普伦的数据科学计划,您学习统计和统计程序、假设检验、聚类、决策树、线性和逻辑回归、R、数据可视化、回归模型、Hadoop、Spark、PROC SQL、SAS 宏等技能和工具、高级分析、Matplotlib、Excel 分析函数、Zookeeper、Kafka 接口等知识和技能。如果您遵循科学的学习路径,每周 8 h学习时间, 21周后你就会成为一名经过认证的数据科学家。