【直通硅谷】数据科学求职旗舰课选做项目

科技求职更简单 直通硅谷订阅号 2021-12-21 10:44
图片

图片


选做项目介绍

图片

图片

项目一

如何使用Retention Rate做数据驱动决策 


数据可视化是数据科学家必备技能之一,衡量和检测产品表现也是数据科学家实际工作中重要组成部分。


大部分的公司都会使用Retention Rate来衡量和监测产品的表现,本项目主要集中于如何设计Retention Rate和如何用Retention Rate来做数据驱动决策。此项目将能大大提高应届毕业生的指标设计以及从数据中寻找Insight的能力。本项目将使用Python去处理数据和计算指标,实现数据可视化并为公司推荐做数据支撑。


图片

项目二

A/B Test Analysis


A/B Test是数据科学家必备的技能之一,也是数据工程师在日常工作中常常处理的问题。


本项目将会带领学员参与实战,通过同学们亲手编写的Python程序来分析A/B Testing Results,通过Bootstrap,Hypothesis Testing和Logistic Regression等多个步骤完成一些有趣的数据分析,让同学们在实战中深入理解并掌握工业界数据分类预测的方法和技巧。


图片

项目三

基于神经网络的信用卡欺诈检测 – 深度学习实战

 

深度学习是近年来发展迅速的一种新的数据分析方法,它利用神经网络强大的特征提取能力,能够建立多层的非线性关系,正因为这些原因,深度学习在欺诈检测等数据科学领域有很广泛的应用。


本项目将会利用Keras深度学习框架,构建和训练一个神经网络模型。通过处理信用卡欺诈检测这一实际问题,学员将解决数据非均衡问题(imbalanced data)、数据预处理、搭建训练网络模型、超参数调优、模型训练、模型评价等一系列问题,来掌握深度学习实战技能。


图片

项目四

Virtual Assistant Design and Implementation- 真实模拟FLAG的产品设计,并应用Alexa Skill平台实现语言模型


由于Data Scientist平时主要负责数据挖掘、建模以及模型测试,需要对产品开发有足够的认知和了解(即Product Sense),所以Data Scientist经常会参与产品设计。同时,DS需要自主建立demo,并在之后与Software Engineer合作开发成品。

 

本项目模拟FLAG的真实产品设计环境,通过标准化流程帮助同学从头至尾设计一个可执行的虚拟语音/语义助手,深入理解如何用人工智能改变我们的交互方式,帮助学员准备Data Scientist面试过程中的Product Sense问题。

 

接下来,学员将通过Alexa Development Console搭建语言模型,包括设计数据架构,语言建模,以及歧义处理。另外,项目老师现场demo如何在AWS上搭建后端服务,引导同学在结束课程之后可以发布自己的Alexa Skill,丰富简历。


图片

项目五

Python环境下数据分类预测


分类预测是数据科学家必备的技能之一,也是数据工程师在日常工作中常常处理的问题。


本项目将会带领学员参与实战,通过同学们亲手编写的Python程序来分析Titanic数据集,通过读取数据、数据清洗、归一化分析、数据可视化、模型训练与比较等多个步骤完成一些有趣的数据分析,让同学们在实战中深入理解并掌握工业界数据分类预测的方法和技巧。


图片

项目六

基于机器学习模型的异常检测分析 – 机器学习拓展项目Anomaly detection


异常检测(anomaly detection)在信用反欺诈,检测文本错误、数据安全、工业质检等领域中有着广泛的应用,同时也是数据分析的重要方法之一。在数据分析岗位中,异常检测是很重要的一项专业要求,也是极其重要的体现实战能力的面试考点。


本项目将会重点学习机器学习建模和数据的可视化分析,并将相关技能应用于店铺销售数据集的异常检测分析,在此过程中深入并且灵活的掌握数据建模与可视化的相关技能。所有学员将会共同参与课堂竞赛,完成达到工业要求的项目,以模型表现效果和数据可视化透彻程度为主要评价标准。


图片

项目七

Yelp Review数据操作(SQL灵活应用)


SQL是所有Data职位最核心的技能。在大数据时代,越来越少的人会围绕excel等传统办公工具来管理项目数据,几乎所有人都转向关系型数据库和分布式存储来进行数据存储和分析。


本项目会带领学员深度分析Yelp数据(或其他商业数据集),学习从基础到复杂的MySQL的使用与优化,从而掌握互联网行业业界的数据收集与格式设计的技能,增强SQL的实战能力。


图片

项目八

Wikipedia通过爬虫的信息抓取


信息抓取,是使用代码自动从网站上获取数据,不但能节省手动整理的时间,还能将所有数据整理在一个结构化的文件中,方便进一步分析查询,是完成数据分析的一个大前提。本项目中学员将通过编写Python程序,来爬虫抓取维基百科的活动数据,并将得到数据存入数据库中,深入理解并掌握工业界信息抓取的方法和技巧,并在信息收集过程中提高调研技巧和行业领悟能力。


图片

项目九

捐赠数据分析

 

复杂数据集的分析也是数据科学家必备的技能之一,同时也是面试考察的重点。


本项目以联邦政府捐赠数据为数据集,首先确立数据分析目标,然后采用数据分析基础及高阶方法(如数据透视表等)来提取、重组并分析数据集,最后进行数据可视化展示,完成数据分析报告。该项目帮助同学们熟悉并掌握完整的数据分析流程和数据分析方法论,从而提升数据分析的能力。


项目可以帮助大家获得等同于FLAG公司在语义理解方面Junior DS level的1-2年工作经验。