在2001年,数据科学作为一个独立的学科被提出。有人这样描述数据科学:它是将数据转化为决策和行动(tradecraft)的艺术,是人和计算机一起工作将数据转化为知识发现的工具、技术和流程的整合。
“数据科学需要的不仅是数学才能,它还要求人们拥有强烈的好奇心,由自身经验而不仅仅是数据触发创意灵感。这是因为,吸收海量数据,汲取所有的生活经验,并且用我们的大脑加以过滤,才会产生最好的直觉。”
——丹尼尔·戈尔曼 《专注》
PART.1、什么是数据科学?
数据科学(Data Science),顾名思义即数据相关的科学研究,它是一门利用数据学习知识的学科,包含两方面——用数据的方法来研究科学和用科学的方法来研究数据。
其目标是通过从数据中提取出有价值的部分来生产数据产品,结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据库、以及高性能计算。数据科学的应用覆盖了医学与公共卫生、工程、法律、教育、设计、商业、经济、政策规划等广泛的领域,也将为这些领域带来巨大的变革与发展。
相比起主要研究数据收集、分析和诠释的传统统计学,数据科学则同时以数学、统计学、计算机为支撑学科,侧重于借助计算机对数据进行处理并以此来解决实际问题。数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。
PART.2、核心专业介绍
数据科学专业主要有以下几个分支:
01. 数据挖掘与机器学习:
关注如何在大规模数据中发现隐藏模式和规律,以及如何构建机器学习模型来预测未知情况。
02. 数据可视化与交互设计:
关注如何将复杂的数据以可视化的方式呈现给用户,以及如何设计用户友好的交互界面,使用户能够更好地理解和分析数据。
03. 数据工程与大数据管理:
关注如何处理和管理大规模的数据集合,包括数据清洗、数据存储和数据处理等方面的技术。
04. 统计学与数据分析:
关注如何运用统计学的方法和技术来分析和解释数据,以及如何从数据中发现相关性和推断因果关系。
05. 数据科学应用领域:
数据科学在各个领域都有广泛的应用,如金融领域的风险评估和投资决策,医疗领域的健康数据分析和疾病模型建立,社交媒体领域的用户行为分析和推荐系统等。
不同的分支需要不同的技能和知识,但都涉及数据分析、统计学、机器学习、编程和数据可视化等方面的知识和技术。
PART.3、数据科学的工具及语言
正所谓工欲善其事,必先利其器,数据科学专业人员通常需要持续学习一系列数据科学工具和编程语言。
常见数据科学编程语言包括了:Python、R、SQL、C/C++。
流行的数据科学工具也是举不胜举,这里只举例一些相关常见的科学工具,包括:Apache Spark(数据分析工具)、Apache Hadoop(大数据工具)、 KNIME(数据分析工具)、Microsoft Excel(数据分析工具)、 Microsoft Power BI(商业智能数据分析和数据可视化工具)、 MongoDB(数据库工具)、 Qlik(数据分析和数据集成工具)、 QlikView(数据可视化工具)、 SAS(数据分析工具)、Scikit Learn(机器学习工具)、 Tableau(数据可视化工具)、 TensorFlow(机器学习工具)等等。
PART.4、数据科学专业课程设置
Data Science是一个新兴专业,U.S.NEWS中排靠前的少数学校,诸如斯坦福大学、卡内基梅隆大学、哥伦比亚大学、纽约大学、西北大学、加州大学伯克利分校等开设了相关学位项目。
以哥伦比亚大学数据科学硕士(M.S. in Data Science)项目为例,该项目课程由文理研究生院统计学系、傅基金会工程与应用科学学院计算机科学系、工业工程与运筹系联合开设。项目需修10门课,其中包括一个capstone project、六门必修课和三门选修课。
必修课:
COMS W4121 数据科学计算机系统:
此课程旨在帮助数据科学家和工程师们深入了解他们工作中可能遇到的大数据系统的基础构建。即使学生没有数据库、操作系统或分布式系统的背景,也能从这门课程中受益。
COMS W4721 数据科学机器学习:
该课程是一门研究生级别的机器学习入门课程,涵盖了监督机器学习的基础统计原理以及一些常见的算法范式。
COMS W4246 数据科学算法:
课程要求学生需要具备基本的编程知识。在数据组织方面,学生需要了解数据结构,以及如何在数据流中计算统计信息的算法;在算法方面,学生需要掌握基本的图模型和相关算法;在数值计算方面,学生需要了解相关基本概念和算法。
ENGI E4800 数据科学顶点项目:
在课程中,学生将参与一个综合性的数据科学项目,该项目融合了统计学、计算科学、工程学以及社会问题的挑战。该课程让学生将他们在数据科学基础、理论和方法方面的知识应用到工业、政府和非营利部门的数据科学问题中。
STAT GR5701 数据科学概率统计:
这门课程的前置条件是微积分。它涵盖了数据科学中使用的概率论和统计推断的基础知识,以及概率论基础、大数定律和中心极限定理、统计推断、线性回归几个关键主题。
STAT GR5702 探索性数据分析与可视化:
该课程要求学习前需要掌握的专业知识和技能:编程、数据可视化基础、图形的分层语法、离散和连续变量的感知、Mondran简介、马赛克图、平行坐标图、ggobi简介、链接图、刷选、动态图形、模型可视化、聚类和分类。
STAT GR5703 统计推断与建模:
课程介绍了统计推理和假设检验的基础知识,并初步探讨统计建模。课程全程使用真实数据案例进行讲座讨论和作业练习,以增强学生的实践应用能力。
选修课:
COMS W4995 计算机科学主题:应用机器学习
COMS W4995 计算机科学主题:应用深度学习
COMS W4995 计算机科学主题:数据科学的因果推断
COMS W4995 计算机科学主题:数据分析流水线
COMS W4995 计算机科学主题:数据科学要素
COMS E6998 计算机科学主题:概率规划机器学习
COMS E6998 自然语言处理:社会意义的计算模型
EECS E6894 信息处理主题:计算机视觉、语音和语言中的深度学习
IEOR E4571 运筹学主题:个性化理论与应用
IEOR E4721 量化金融主题:金融中的大数据
STAT GR5293 现代统计学主题:机器学习在财务建模和预测中的应用
STAT GR5293 现代统计学主题:机器学习在影响分析中的应
PART.5、专业就业方向
现如今,当人们被问到什么学科最火爆、就业率最高时、薪水最诱人时,数据科学想必一定是其中的一个答案。《哈佛商业评论》曾一度将“数据科学家”这一职业评为21世纪最性感的工作(“Data Scientist: The sexiest job of the 21th century” - Harvard Business Review)。据Built in从数据科学家收集的数据显示,美国数据科学相关岗位平均年薪达到了12.5666万美元。
以下是一些常见的数据科学专业就业方向:
01.数据分析师:
负责收集、清洗、分析和解释数据,为企业提供数据驱动的决策支持。
02.机器学习工程师:
负责设计和开发机器学习模型,用于解决自然语言处理、计算机视觉、预测分析等问题。
03.数据工程师:
负责构建和维护大规模数据处理和存储系统,以支持数据分析和机器学习的需求。
04.数据科学研究员:
从事数据科学领域的研究和创新工作,推动数据科学的发展和应用。
05.业务分析师:
将数据分析的结果转化为实际业务洞察,通过数据驱动的方式改进业务流程和决策。
06.数据可视化专家:
负责将复杂的数据以可视化的方式呈现给用户,以帮助用户更好地理解和分析数据。
07.市场营销分析师:
利用数据分析技术,在市场营销中进行客户数据分析、市场趋势分析和市场策略制定等工作。
08.金融数据分析师:
在金融领域应用数据科学技术,进行风险评估、投资决策以及金融模型开发等工作。
09.健康数据分析师:
在医疗领域应用数据科学技术,处理和分析健康数据,发现疾病模式和提供个性化的医疗建议。
10.社交媒体分析师:负责分析用户行为和社交网络数据,提供推荐系统、广告定向和用户调研等支持。
PART.6、数据科学在各行业的应用
目前数据科学的应用场景越来越广泛,以下是数据科学的在不同行业的一些应用案例:
医疗保健中的数据科学:
数据科学为医疗保健行业带来了许多突破。现在,从电子病历到临床数据库再到个人健身追踪器,医疗专业人员都可以找到庞大的数据网络,从而找到了解疾病、实践预防医学、更快地诊断疾病和探索新治疗方案的新方法。
自动驾驶汽车中的数据科学:
数据科学也出现在道路上。特斯拉、福特和大众汽车已经在其自动驾驶汽车中实施了预测分析。这些汽车使用数以千计的微型摄像头和传感器来实时传递信息。使用机器学习、预测分析和数据科学,自动驾驶汽车可以根据速度限制进行调整,避免危险的变道,甚至可以将乘客带到最快的路线上。
娱乐业中的数据科学:
数据科学在娱乐业的首要作用是精准的用户画像。通过收集和分析用户的浏览历史、消费行为、兴趣偏好等大量数据,娱乐公司能够深入了解观众的喜好。预测分析也是数据科学在娱乐业的一大亮点,它可以帮助预测电影票房、音乐专辑销量等。另外,数据科学在优化内容创作方面发挥着关键作用。
金融数据科学:
机器学习和数据科学为金融业节省了数百万美元和无法量化的时间。例如,摩根大通的合同智能平台使用自然语言处理来处理和提取每年数千份商业信贷协议的重要数据,依靠数据科学,这项原本需要数十万个人工小时才能完成的工作现在只需几个小时即可完成。
网络安全中的数据科学:
数据科学在很多行业都发挥作用,但它可能是网络安全中最重要的。国际网络安全公司卡巴斯基(Kaspersky)每天使用科学和机器学习来检测数十万个新的恶意软件样本,而能够通过数据科学即时检测和学习新的网络犯罪方法对于我们未来的安全和保障至关重要。
最后,数据科学注定是一门交叉学科,虽然都依赖于大量的计算,但数据科学与计算机模拟不同,并非是基于一个已知的数据模型,而是用大量数据的相关性取代了因果关系和严格的理论和模型,并基于这些相关性获得新的“知识”,数据科学的学习需要有很强的学习能力和动手实践能力,同时也必须具有较好的计算机和数学基础。