加入收藏 | 设为首页 | 会员中心 | 我要投稿 孝感站长网 (https://www.0712zz.com.cn/)- 运营、云管理、管理运维、云计算、大数据!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

四步突破数据科学

发布时间:2021-03-04 14:53:36 所属栏目:传媒 来源:互联网
导读:很可能出自某个数据库,这是不同于书籍或课程的典型情况不会获得格式正确的CSV文件。通常,你需要具备专业知识(或认识懂这方面知识的人),对SQL也要有一定的了解。 如果用Python或R语言分析,那就不要用太多时间来学SQL分析函数、PLSQL/T-SQL和所有那些高难



很可能出自某个数据库,这是不同于书籍或课程的典型情况——不会获得格式正确的CSV文件。通常,你需要具备专业知识(或认识懂这方面知识的人),对SQL也要有一定的了解。

如果用Python或R语言分析,那就不要用太多时间来学SQL分析函数、PLSQL/T-SQL和所有那些高难度东西。在这种情况下,SQL的任务很大程度上依靠的是结合几组表格,在上面进行分析。

这个过程要花的时间取决于使用方式以及先验知识,但新手在这里花的时间不会超过一个月。

2. 现在来谈谈数据科学

如果按照上面的每一步来,还没有先验知识,此时可能是2020年的8月或9月。时间已经过去很多了,但你已经具备寻求第一份工作的所有先决条件。

不是所有都要刚刚好。

要找一份数据科学的工作,目前也只提了先决条件。后面这两个月,建议对一些基础的数据分析和可视化库有所了解,如:

  • Numpy
  • Pandas
  • Matplotlib
  • Scipy
  • Statsmodels

这是在你不懂的情况下(如果不知道为何需要这些知识的话学起来会感到无聊)。

不要走马观花式看课程,到网站上下载数据集然后完整地分析。再到网上看其他人对于同一数据集是如何处理的,看自己怎么改进。

同样,在这两个月时间内,应该熟悉一些机器学习的算法,如:

  • 线性回归(Linear Regression)
  • 逻辑回归(Logistic Regression)
  • 分类与回归树(Classification and Regression Trees)
  • KNN(k-NearestNeighbor,K最近邻分类算法)
  • 朴素贝叶斯分类(Naive Bayes)
  • SVM(Support Vector Machine,支持向量机)

也许实际操作中不会用到这些,但它们是日后学习更多高级算法XGBoost和神经网络(Neural networks)的基础。有了分析数据库,记得不要只

(编辑:孝感站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读