-
自我介绍:
大家好,我叫苏紫先,是2023级数据科学与大数据技术0102班的一名学生,很高兴进入这个大家庭并在此记录我接下来的学习内容,如今进入大学已经3年了,我们上了很多专业的科目虽然说成绩不错,但是真实掌握的和课程相关的技术确实不怎么会运用。我比较喜欢听音乐,看小说,喜欢写作业的时候喜欢听,休息的时候也喜欢听;我认为我的数学还是可以的,对于这该门科目,我基本掌握上课听老师讲的知识,此外还在西安欧鹏分校进行学习,有关RHCSA、HCIA等课程。 -
能力分析:
对于目前我的状况来说,我们已经学了很多很多专业知识,我对后端运维方向比较感兴趣,想深入学习有关的内容,但是我现有的能力不足以支撑,有许多欠缺的能力。如下:- 现有能力:
- 基础编程能力:了解JAVA和python基础语法,基本上能够使用。
- 大数据入门:熟悉linux基本命令,能在Center OS系统、Ubuntu系统、Red Hat系统中完成JAVA、Python环境配置;了解Hadoop的核心组件,例如mapreduce,HDFS等,了解各组件的功能和交互流程;了解HDFS分布式文件系统的基本概念,能在虚拟机上完成hadoop的单机、集群部署。
- 数据处理工具:掌握使用excel(V lookup函数,条件格式),能完成500行左右数据的统计;了解python的pandas,numpy库;同时基本掌握Mysql、Redis数据库的基本命令,能够较好的使用相关命令。
- 前端学习:了解wed前端的编写语法CSS、html等,编写过超过400行代码的网页;掌握自动化、多线程等技术;了解Python的selenium库。
5.后端运维:学习RHCSA课程中有关Nginx、yum管理工具、进程管理、挂载、管理逻辑卷等基本命令以及相关技术。
6.统计学基础:掌握描述性统计(均值,方差,)概率分布(正态分布二项分布,t分布等等),能运用假设检验(卡方检验,t检验)解决简单的数据分析问题。
- 所欠缺的能力:
- 不会用可视化工具将分析结果转化为直观的可视化报告;
- 缺乏较大型实际的业务场景经验;
- SQl仅掌握基础查询,对进阶内容不熟悉,对mosql、redis数据库功能了解较少;
- 面对海量数据时容易陷入误区,不能够系统的分析逻辑并解决问题;
- wed前端编写时,对语法使用不太清晰,比较容易混淆;
- 后端运维知识点掌握不太牢固,逻辑卷管理掌握不太熟练。
-
未来期许:
希望能在课程中掌握有关后端运维师的核心工作(Linux+网络+数据库+脚本编程),能够理解不同行业的业务逻辑,希望能通过学习以及通过一些真实案例来提升分析思维和业务敏感度,最好有能力去实习,增加工作经验,丰富履历。 -
现实方向:
对于我现在目标来说,主要是工作,每天都有花时间来丰富自己的能力,想成为一名后端运维师,我会认真学习课程上所安排的专业课,尽量掌握该掌握的知识,同时积极参加省级、国家级的相关比赛,增加履历含金量,并在寒暑假等空余时间实习,了解未来工作的流程以及注意事项等。-
优势:
耐心细致,能够处理数据中的异常;喜欢沟通,能够将分析结果用自己的语言表达给他人;自制力较强,能够按照自己规划去实施。 -
劣势:
知识储备不足,知识面比较宽,但不够深;分析时容易脱离实际情况;思维逻辑不够系统,对于复杂问题的拆解不能够用专业的思维逻辑来思考;对SQL进阶语法掌握不牢,处理大量数据查询时效率低。 -
目前的代码量:
java200行左右,Python800行左右,sql600行左右,wed1000行,linux命令200行,总共2800行左右(包括布置的课堂作业以及代码练习、课外培训的,以上数量往小预估) -
行业要求:
通过上网查询了解到,入职中大型企业的数据分析师岗位累积代码量需达8千到1万行,其中当前行业对后端运维师的要求越来越趋向于SRE站点可靠性工程师和平台工程师的角色。即:- 用软件工程的方法解决运维问题。
- 不仅负责“维稳”,更致力于通过工具和平台提升整个研发团队的效率。
- 精通云原生技术栈(K8s, Prometheus, Istio等)已成为中高级岗位的标配。
因此,如果我想成为一名有竞争力的后端运维师,你的学习路径应该是:夯实Linux/Network基础 -> 掌握一门编程语言(Python/Go)-> 精通容器化与K8s -> 深入公有云服务 -> 在实践中构建完整的自动化、监控和故障处理体系。
-
-
课程学习:
对于该门课程来说;大数据分析这门课程是大数据时代的核心课程之一。在接下来的十周里,每周将学习一个重要的数据科学技术领域,通过逐步积累,构建起完整的数据科学知识体系。-
每周学习重点:
(一)第一周-课程自我介绍
本周作为课程的开篇,主要目的是让我对整个课程有一个全面的了解,包括课程目标、涵盖的技术范围以及学习方法等。(二)第二周-数据采集
数据采集是大数据分析的第一步。我们将学习如何从各种数据源(如数据库、网络API、文件系统等)收集数据。这包括了解不同的数据格式(如CSV、JSON、XML等),掌握数据采集工具(如网络爬虫、ETL工具等)的使用方法,以及处理数据采集过程中的常见问题,如数据的完整性、准确性和合法性。(三)第三周-numpy和pandas
numpy和pandas是Python中用于数据处理和分析的重要库。
①numpy提供了高效的多维数组操作功能,包括数组的创建、索引、切片、数学运算等。它是许多其他数据科学库的基础,能够大大提高数据处理的效率。
②pandas则侧重于数据结构和数据分析工具。它提供了两种主要的数据结构:Series(一维数据结构)和DataFrame(二维数据结构)。通过pandas,我们可以方便地进行数据清洗、转换、合并、分组等操作。 -
思维导图:
-
-
课程总结:
希望通过这十周的学习,我可以比较系统地掌握数据科学与大数据分析的核心技术,对我来说,这门课不仅是专业知识的积累,更是未来工作可以提拓展的新方向,在接下来的学期里,我会认真学习该门课程,为未来在相关领域的工作和研究打下坚实的基础。(部分内容以后再补充)