ปัจจุบัน Data เป็นสิ่งที่มีประโยชน์ต่อการดำเนินธุรกิจเป็นอย่างมาก ทำให้เกิดตำแหน่งงานที่เกี่ยวข้องกับ Data ขึ้นหลายตำแหน่ง ซึ่งหนึ่งในนั้นก็คือ Data Scientist และในบทความนี้จะมาบอกถึง 7 Skills ที่คุณควร(ต้อง)มี หากอยากเป็น Data Scientist ในปี 2021
บทความนี้ถูกเขียนโดยคุณ Terence Shin ซึ่งเขาได้รวบรวมมาจากการได้มีโอกาสพูดคุยและแลกเปลี่ยนมุมมองกับผู้ที่ทำงานเกี่ยวข้องกับ Data ในบริษัทชั้นนำ อย่างเช่น Head of Data & Analytics จาก Google, Senior Director of Engineering -จาก NVIDIA และ VP of Data Science and Engineering จาก Wealthsimple
1. SQL
SQL ถือเป็นภาษาสากลในโลกของ Data ไม่ว่าคุณจะเป็น Data Scientist, Data Engineer หรือ Data Analyst ก็ตาม คุณจำเป็นต้องรู้จักและมีความรู้เกี่ยวกับ SQL
โดยพื้นฐานแล้ว SQL ถูกใช้เพื่อดึง Data จาก Database, จัดการกับ Data และสร้าง Data Pipelines แต่ที่จริงมันสำคัญกับแทบจะทุกขั้นตอน ทั้ง Pre-Analysis / Pre-Modeling ใน Data Lifecycle
การพัฒนาทักษะ SQL ให้เชี่ยวชาญจะช่วยให้ความสามารถในเรื่อง Analyses, Visualize และ Modeling ของคุณก้าวไปอีกขั้น เพราะคุณจะสามารถแยกและจัดการกับ Data ด้วยวิธีที่ Advance ขึ้น นอกจากนี้การ Query ที่มีประสิทธิภาพและสามารถ Scalable ได้ จะมีความสำคัญมากขึ้นเรื่อย ๆ สำหรับบริษัทที่ต้องทำงานกับ Data ในระดับ Petabytes (เพตะไบต์)
นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ SQL:
Mode’s SQL tutorial for Data Analysis
Codecademy — Learn SQL
FreeCodeCamp — Full Database Course for Beginners
2. Data Visualizations และ Storytelling
หากคุณคิดว่า Data Visualizations และ Storytelling เป็นเรื่องที่เกี่ยวข้องเฉพาะ Data Analyst เท่านั้น อยากให้ลองคิดดูใหม่
Data Visualizations เป็นการอ้างอิงถึง Data ที่สามารถนำเสนอให้เห็นได้ ซึ่งอาจอยู่ในรูปแบบของ Graph แต่อาจถือว่าเป็นการนำเสนอในรูปแบบที่ยังไม่เป็นทางการมากนัก
Data Storytelling เป็นการทำ Data Visualizations ให้ก้าวไปอีกขั้น Data Storytelling คือ “วิธี” ที่คุณสื่อสาร Data ในเชิงลึก ของคุณ ให้คิดว่ามันเหมือนกับหนังสือภาพ โดยหนังสือภาพที่ดี นอกจากจะมีภาพที่สวยงามแล้ว ยังมีการบรรยายที่น่าดึงดูดใจและทรงพลัง ซึ่งเชื่อมโยงกับภาพเหล่านั้นอีกด้วย
การพัฒนาทักษะ Data Visualizations และ Storytelling ถือเป็นสิ่งสำคัญ เพราะคุณจะต้องขาย Idea และ Model ของคุณในฐานะของ Data Scientist อยู่เสมอ โดยเฉพาะอย่างยิ่งเมื่อคุณต้องสื่อสารกับผู้อื่นที่อาจไม่มีความเข้าใจในเทคโนโลยีนัก
นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Data Visualizations & Storytelling:
Data Visualization using Matplotlib
Data Visualizations using Plotly
Google — Storytelling with data
3. Python
Python ดูเหมือนจะเป็นภาษา Programming ที่ควรเรียนรู้นอกเหนือจากภาษา R ซึ่งนั่นไม่ได้หมายความว่า คุณจะเป็น Data Scientist ไม่ได้หากคุณยังใช้ภาษา R แต่หมายความว่าคุณจะทำงานในภาษาที่แตกต่างจากที่คนส่วนใหญ่ใช้งานกัน
การเรียนรู้ Python Syntax ไม่ใช่เรื่องยากอะไรนัก แต่คุณควรจะสามารถเขียน Scripts ที่มีประสิทธิภาพและใช้ประโยชน์จาก Libraries และ Packages ต่าง ๆ ที่ Python มีให้ได้มากที่สุด ภาษา Python เป็นโครงสร้างพื้นฐานสำหรับ Application เช่นการจัดการ Data, การสร้าง Machine Learning Models, เขียน DAG Files และอื่น ๆ
นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Python:
FreeCodeCamp — Full Python Course for Beginners
Leetcode
4. Pandas
Library ที่สำคัญที่คุณควรทราบและเรียนรู้ไว้ในการใช้งานกับ Python ก็คือ Pandas ซึ่งเป็น Package สำหรับ Data Manipulation และ Analysis ในฐานะของ Data Scientist คุณอาจจะต้องใช้งาน Package นี้อยู่ตลอดเวลา ไม่ว่าคุณจะกำลัง Clean Data, Explore Data หรือ Manipulate Data ก็ตาม
Pandas กลายเป็น Package ที่แพร่หลาย ไม่เพียงเพราะจาก Function การทำงานของมันเท่านั้น แต่ยังเป็นเพราะ DataFrames ได้กลายเป็น Data Structure มาตรฐานสำหรับ Machine Learning Models
นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Pandas:
Kaggle — Learn Pandas Tutorial
Guipsamora — Pandas Exercises
5. Git/Version Control
Git เป็น Version Control System หลัก ที่ถูกใช้ใน Tech Community
ลองมาพิจารณาตัวอย่างนี้กัน หากคุณเคยเขียน Essay ในโรงเรียนหรือมหาวิทยาลัย คุณอาจบันทึก Essay ของคุณใน Version ต่าง ๆ ว่าคุณเขียนไปถึงขั้นไหนแล้ว เช่น:
นอกจากเรื่องตลกตามที่เห็นด้านบน Git ถือเป็น Tool ที่สามารถตอบสนองจุดประสงค์เดียวกันได้ ยกเว้นว่ามันเป็น Distributed System ซึ่งหมายความว่า Files (หรือ Repositories) จะถูกจัดเก็บทั้งในเครื่องที่ใช้งานและใน Central Server
Git มีความสำคัญอย่างยิ่งด้วยเหตุผลหลายข้อ เช่น:
ช่วยให้คุณสามารถเปลี่ยนกลับไปใช้ Code ใน Version ก่อนหน้านี้ได้
ช่วยให้คุณสามารถทำงานควบคู่ไปกับ Data Scientists และ Programmers คนอื่น ๆ ได้
ช่วยให้คุณสามารถใช้ Codebase เดียวกันกับคนอื่น แม้ว่าจะทำงานใน Project ที่แตกต่างกัน
นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Git:
Codecademy — Learn Git
MIT — Version Control
Learn Git Branching
6. Docker
Docker เป็น Containerization Platform ที่ช่วยให้คุณสามารถ Deploy และ Run Applications อย่าง Machine Learning Models ได้
มันเป็นเรื่องสำคัญมากขึ้น ที่ Data Scientist ไม่เพียงต้องรู้วิธีสร้าง Models เท่านั้น แต่ควรต้องรู้ว่าจะ Deploy มันได้อย่างไรอีกด้วย เรามักจะเห็นว่า ในประกาศรับสมัครงานจำนวนมาก ต้องการคนที่มีประสบการณ์ทำงานในเรื่อง Model Deployment
เหตุผลที่ทำให้มันสำคัญอย่างมากในการเรียนรู้วิธี Deploy Models ก็คือ Model จะยังไม่เกิด Business Value จนกว่ามันจะถูก Integrate เข้ากับ Process/Product ที่เกี่ยวข้องด้วย
นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Docker:
Docker for Beginners
Docker For Beginners: From Docker Desktop to Deployment [YouTube]
Deploying Docker Containers
Deploy Machine Learning Pipeline on the cloud using Docker Container
7. Airflow
Airflow เป็น Tool ที่ใช้ในการจัดการ Workflow ซึ่งจะช่วยให้คุณสามารถ Automate สิ่งต่าง ๆ ได้ โดยเฉพาะอย่างยิ่งกับ Workflows นอกจากนี้ Airflow ยังช่วยให้คุณสร้าง Automated Workflows สำหรับ Data Pipelines และ Machine Learning Pipelines
Airflow มีประสิทธิภาพอย่างมาก เนื่องจากมันช่วยให้คุณสามารถสร้าง Tables ที่คุณอาจต้องการใช้เพื่อวิเคราะห์หรือสร้าง Models เพิ่มเติม อีกทั้งยังเป็น Tool ที่คุณสามารถใช้ในการ Deploy Machine Learning Models ได้อีกด้วย
นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Airflow:
Airflow tutorial 1: Introduction to Apache Airflow [YouTube]
A Complete Introduction to Apache Airflow
Tutorial — Airflow Documentation
ISM Technology Recruitment Ltd. (#1 Tech Recruiter in Thailand) เราเชี่ยวชาญในธุรกิจ IT Recruitment & IT Outsourcing โดยเฉพาะ เปิดทำการมา 30 ปี มีพนักงานทุกสายและทุกระดับทางด้าน IT ที่ได้ร่วมงานกับลูกค้าองค์กรใหญ่ที่มีชื่อเสียงและบริษัทข้ามชาติมากมาย
หากคุณเป็นคน IT ที่อยากทำงานท้าทายและร่วมงานกับองค์กรชั้นนำ สามารถฝากประวัติการทำงาน (Resume) ของคุณไว้กับ ISM ได้ที่ https://www.ismtech.net/submit-your-resume แล้วคุณจะพบว่าอนาคตและโอกาสก้าวหน้ากำลังรอคุณอยู่
Source: https://towardsdatascience.com/