当地时间7月18日,加州大学圣地亚哥分校(UCSD)正式宣布,将成立全新的计算机、信息与数据科学学院(Computing, Information and Data Sciences, SCIDS),这是加州大学圣地亚哥分校长期以来在人工智能、计算和数据科学领域引领创新和教育的重要进展。作为UCSD的第12个学院,同时也是21世纪内所成立的第4个学院,SCIDS的诞生预示着学校对未来科技趋势的深刻洞察与积极应对。
世界领先的超级计算中心之一
UCSD在计算机科学领域一直有着卓越的表现,在2024年U.S.News计算机专业排名中位列全美第11位,根据2024 CS Ranking计算机专业排名,UCSD位居第三,超越伯克利成为加州大学系统中排名最高的学校。而背靠国家超级计算中心SDSC,及创新性跨学科研究所HDSI的计算、信息和数据科学学院(SCIDS),从一开始,就拥有强大的基础支柱。高性能和数据密集型计算的美国超级计算中心SDSC,是UCSD的一个重要研究单位,是一个在高性能计算和数据科学领域具有重要影响力的机构。SDSC自1985年成立以来,一直在推动科学、工程和社会科学的研究和创新。也美国首批获得联邦资助的超级计算机中心之一。
Haliciosullu数据科学研究所(HDSI)是加州大学圣地亚哥分校(UCSD)的一个开创性的跨学科研究所,专注于数据科学和人工智能领域的教育、研究和创新。该研究所由UCSD校友Taner Halıcıoğlu捐赠创立,以推动数据科学的前沿发展和应用。
SDSC与HDSI,都是隶属于UCSD的学术和研究体系,与UCSD的各个学院和部门紧密合作,共享资源和设施。例如,SDSC与工程学院、医学学院、物理学院等合作,开展各种科学和工程领域的研究。HDSI与UCSD的多个学院合作,开设数据科学相关的课程和学位项目,为学生提供全面的数据科学教育。
培养新一代跨学科领域人才
寻求跨学科合作研究机会和创建跨学科教育项目是加州大学圣地亚哥分校社区不可或缺的一部分,”执行副校长Elizabeth H. Simmons表示。“计算、信息和数据科学学院只是我们致力于跨学科合作以扩大新兴领域的知识并改善我们的社区和世界的最新例证。它与我们的教育体系非常契合。”
随着大数据和人工智能技术的迅猛发展,各行各业对数据科学家的需求激增。在这样的背景下,UCSD致力于满足现代社会关键需求的承诺——将数据转化为可操作的知识,希望通过SCIDS学院,培养出既掌握前沿技术、又深谙数据伦理和肩负社会责任感的新一代科学家和工程师。
而在学科设置上,目前得知,SCIDS将提供包括数据科学学士学位在内的多种本科和研究生项目,注重理论与实践相结合,帮助学生掌握前沿的计算机技术和提升数据处理能力。
SCIDS的建设提案
计算机热潮席卷顶尖学府
在数字时代的浪潮中,美国顶尖高等学府纷纷响应时代号召,加速布局计算机与数据科学领域。除了UCSD宣布成立新的计算机学院以外,在过去的一年间,美国已经有多所名校新增了计算机相关的学院或项目。
今年4月,UIUC官宣将成立新的计算机与数据科学学院——The Siebel School of Computing and Data Science,把Grainger工程学院计算机系的项目转移到了这个新学院。
去年5月,UC-Berkeley新成立了计算机相关学院——CDSS(UC Berkeley’s College of Computing, Data Science, and Society),开设数据科学(Data Science)本科生专业,及计算机与数据相关方向的硕士和博士项目。CDSS还与工程学院共享电子工程和计算机科学系,与社会科学部共享社会科学数据实验室(D-Lab),与UCSF共享Computational Precision Health program项目。
USC为了提高全校学生的数字素养,也推出该校历史上最大的综合性学术计划——Frontiers of Computing,其中就包括成立一个新的Advanced Computing学院。该学院预计将在今年秋天开学,成为南加大计算机科学、数据科学、信息技术和高级计算课程的大本营。
独立计算机学院的设立,不仅标志着学术版图的重新划分,更是对教育理念的一次深刻反思与革新——它强调专业深度与广度的并重,追求理论与实践的完美融合。
计算机与数据科学交叉学科研究
在当今知识大爆炸、学科融合日益频繁的时代背景下,真正的交叉学科研究对学者们提出了高标准的要求:不仅需要对本专业有深入透彻的理解,还应对其他相关学科保持足够的认识和敏锐的洞察力。
以拔尖计划“计算机科学领域交叉专业课程:深度学习在自然语言处理中的应用”课题为例,它不仅在计算机领域进行深入研究,也致力于多学科的交叉研究,重点包括自然语言处理、机器学习、人工智能、数据可视化等领域,为学生提供全面而前沿的学科训练。这种交叉融合的研究方式为科学难题的解决注入了新的思路,同时也为原始创新成果的出现打下了牢固的基石。
本课题为学生提供使用Python编程语言进行应用机器学习的基础知识库。学生们在教授的带领下统计和概率框架内学习重要的数据整理、特征选择、模型选择和模型验证技术,并将文本分析和自然语言处理作为重点。学生在本课题中不仅能够接触建模技术,还将通过从广告技术、金融科技和营销技术数据集中提取见解并进行预测,接触数据科学家使用的各种常用工具。
课程大纲
1. 语法、变量、运算符、正则表达式、日期时间、转义字符、GitHub
2. 集合、字典、列表、for 循环、while 循环、do 循环、I/O 读写
3. 数据整理、数据清洗、降维、归一化、插补
4. 自然语言处理:文本分词、词干提取、特征矩阵、简介
5. 特征选择:TF-IDF、特征向量、N-gram方法
6. 文本摘要:文本摘要与提取、主题建模和关键词提取
7. 情感分析:词典和机器学习、模型选择
8. 网格搜索、验证与评估、性能指标
9. 自然语言处理中的主题建模:潜在狄利克雷分配(LDA)
10. 用于情感分析的高级机器学习模型