7 Skills ที่คุณควร(ต้อง)มี หากอยากเป็น Data Scientist ในปี 2021

7 Skills ที่คุณควร(ต้อง)มี หากอยากเป็น Data Scientist ในปี 2021

HOME › 7 Skills ที่คุณควร(ต้อง)มี ห...

ปัจจุบัน Data เป็นสิ่งที่มีประโยชน์ต่อการดำเนินธุรกิจเป็นอย่างมาก ทำให้เกิดตำแหน่งงานที่เกี่ยวข้องกับ Data ขึ้นหลายตำแหน่ง ซึ่งหนึ่งในนั้นก็คือ Data Scientist และในบทความนี้จะมาบอกถึง 7 Skills ที่คุณควร(ต้อง)มี หากอยากเป็น Data Scientist ในปี 2021

บทความนี้ถูกเขียนโดยคุณ Terence Shin ซึ่งเขาได้รวบรวมมาจากการได้มีโอกาสพูดคุยและแลกเปลี่ยนมุมมองกับผู้ที่ทำงานเกี่ยวข้องกับ Data ในบริษัทชั้นนำ อย่างเช่น Head of Data & Analytics จาก Google, Senior Director of Engineering -จาก NVIDIA และ VP of Data Science and Engineering จาก Wealthsimple

1. SQL

SQL ถือเป็นภาษาสากลในโลกของ Data ไม่ว่าคุณจะเป็น Data Scientist, Data Engineer หรือ Data Analyst ก็ตาม คุณจำเป็นต้องรู้จักและมีความรู้เกี่ยวกับ SQL

โดยพื้นฐานแล้ว SQL ถูกใช้เพื่อดึง Data จาก Database, จัดการกับ Data และสร้าง Data Pipelines แต่ที่จริงมันสำคัญกับแทบจะทุกขั้นตอน ทั้ง Pre-Analysis / Pre-Modeling ใน Data Lifecycle

การพัฒนาทักษะ SQL ให้เชี่ยวชาญจะช่วยให้ความสามารถในเรื่อง Analyses, Visualize และ Modeling ของคุณก้าวไปอีกขั้น เพราะคุณจะสามารถแยกและจัดการกับ Data ด้วยวิธีที่ Advance ขึ้น นอกจากนี้การ Query ที่มีประสิทธิภาพและสามารถ Scalable ได้ จะมีความสำคัญมากขึ้นเรื่อย ๆ สำหรับบริษัทที่ต้องทำงานกับ Data ในระดับ Petabytes (เพตะไบต์)

นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ SQL:

2. Data Visualizations และ Storytelling

หากคุณคิดว่า Data Visualizations และ Storytelling เป็นเรื่องที่เกี่ยวข้องเฉพาะ Data Analyst เท่านั้น อยากให้ลองคิดดูใหม่

Data Visualizations เป็นการอ้างอิงถึง Data ที่สามารถนำเสนอให้เห็นได้ ซึ่งอาจอยู่ในรูปแบบของ Graph แต่อาจถือว่าเป็นการนำเสนอในรูปแบบที่ยังไม่เป็นทางการมากนัก

Data Storytelling เป็นการทำ Data Visualizations ให้ก้าวไปอีกขั้น Data Storytelling คือ "วิธี" ที่คุณสื่อสาร Data ในเชิงลึก ของคุณ ให้คิดว่ามันเหมือนกับหนังสือภาพ โดยหนังสือภาพที่ดี นอกจากจะมีภาพที่สวยงามแล้ว ยังมีการบรรยายที่น่าดึงดูดใจและทรงพลัง ซึ่งเชื่อมโยงกับภาพเหล่านั้นอีกด้วย

การพัฒนาทักษะ Data Visualizations และ Storytelling ถือเป็นสิ่งสำคัญ เพราะคุณจะต้องขาย Idea และ Model ของคุณในฐานะของ Data Scientist อยู่เสมอ โดยเฉพาะอย่างยิ่งเมื่อคุณต้องสื่อสารกับผู้อื่นที่อาจไม่มีความเข้าใจในเทคโนโลยีนัก

นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Data Visualizations & Storytelling:

3. Python

Python ดูเหมือนจะเป็นภาษา Programming ที่ควรเรียนรู้นอกเหนือจากภาษา R ซึ่งนั่นไม่ได้หมายความว่า คุณจะเป็น Data Scientist ไม่ได้หากคุณยังใช้ภาษา R แต่หมายความว่าคุณจะทำงานในภาษาที่แตกต่างจากที่คนส่วนใหญ่ใช้งานกัน

การเรียนรู้ Python Syntax ไม่ใช่เรื่องยากอะไรนัก แต่คุณควรจะสามารถเขียน Scripts ที่มีประสิทธิภาพและใช้ประโยชน์จาก Libraries และ Packages ต่าง ๆ ที่ Python มีให้ได้มากที่สุด ภาษา Python เป็นโครงสร้างพื้นฐานสำหรับ Application เช่นการจัดการ Data, การสร้าง Machine Learning Models, เขียน DAG Files และอื่น ๆ

นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Python:

4. Pandas

Library ที่สำคัญที่คุณควรทราบและเรียนรู้ไว้ในการใช้งานกับ Python ก็คือ Pandas ซึ่งเป็น Package สำหรับ Data Manipulation และ Analysis ในฐานะของ Data Scientist คุณอาจจะต้องใช้งาน Package นี้อยู่ตลอดเวลา ไม่ว่าคุณจะกำลัง Clean Data, Explore Data หรือ Manipulate Data ก็ตาม

Pandas กลายเป็น Package ที่แพร่หลาย ไม่เพียงเพราะจาก Function การทำงานของมันเท่านั้น แต่ยังเป็นเพราะ DataFrames ได้กลายเป็น Data Structure มาตรฐานสำหรับ Machine Learning Models

นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Pandas:

5. Git/Version Control

Git เป็น Version Control System หลัก ที่ถูกใช้ใน Tech Community

ลองมาพิจารณาตัวอย่างนี้กัน หากคุณเคยเขียน Essay ในโรงเรียนหรือมหาวิทยาลัย คุณอาจบันทึก Essay ของคุณใน Version ต่าง ๆ ว่าคุณเขียนไปถึงขั้นไหนแล้ว เช่น:

นอกจากเรื่องตลกตามที่เห็นด้านบน Git ถือเป็น Tool ที่สามารถตอบสนองจุดประสงค์เดียวกันได้ ยกเว้นว่ามันเป็น Distributed System ซึ่งหมายความว่า Files (หรือ Repositories) จะถูกจัดเก็บทั้งในเครื่องที่ใช้งานและใน Central Server

Git มีความสำคัญอย่างยิ่งด้วยเหตุผลหลายข้อ เช่น:

  • ช่วยให้คุณสามารถเปลี่ยนกลับไปใช้ Code ใน Version ก่อนหน้านี้ได้

  • ช่วยให้คุณสามารถทำงานควบคู่ไปกับ Data Scientists และ Programmers คนอื่น ๆ ได้

  • ช่วยให้คุณสามารถใช้ Codebase เดียวกันกับคนอื่น แม้ว่าจะทำงานใน Project ที่แตกต่างกัน

นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Git:

6. Docker

Docker เป็น Containerization Platform ที่ช่วยให้คุณสามารถ Deploy และ Run Applications อย่าง Machine Learning Models ได้

มันเป็นเรื่องสำคัญมากขึ้น ที่ Data Scientist ไม่เพียงต้องรู้วิธีสร้าง Models เท่านั้น แต่ควรต้องรู้ว่าจะ Deploy มันได้อย่างไรอีกด้วย เรามักจะเห็นว่า ในประกาศรับสมัครงานจำนวนมาก ต้องการคนที่มีประสบการณ์ทำงานในเรื่อง Model Deployment

เหตุผลที่ทำให้มันสำคัญอย่างมากในการเรียนรู้วิธี Deploy Models ก็คือ Model จะยังไม่เกิด Business Value จนกว่ามันจะถูก Integrate เข้ากับ Process/Product ที่เกี่ยวข้องด้วย

นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Docker:

7. Airflow

Airflow เป็น Tool ที่ใช้ในการจัดการ Workflow ซึ่งจะช่วยให้คุณสามารถ Automate สิ่งต่าง ๆ ได้ โดยเฉพาะอย่างยิ่งกับ Workflows นอกจากนี้ Airflow ยังช่วยให้คุณสร้าง Automated Workflows สำหรับ Data Pipelines และ Machine Learning Pipelines

Airflow มีประสิทธิภาพอย่างมาก เนื่องจากมันช่วยให้คุณสามารถสร้าง Tables ที่คุณอาจต้องการใช้เพื่อวิเคราะห์หรือสร้าง Models เพิ่มเติม อีกทั้งยังเป็น Tool ที่คุณสามารถใช้ในการ Deploy Machine Learning Models ได้อีกด้วย

นี่คือ Resources ที่แนะนำ สำหรับการเรียนรู้ Airflow:

Source: https://towardsdatascience.com/

 


ISM Technology Recruitment Ltd. (#1 Tech Recruiter in Thailand) เราเชี่ยวชาญในธุรกิจ IT Recruitment & IT Outsourcing โดยเฉพาะ เปิดทำการมา 30 ปี มีพนักงานทุกสายและทุกระดับทางด้าน IT ที่ได้ร่วมงานกับลูกค้าองค์กรใหญ่ที่มีชื่อเสียงและบริษัทข้ามชาติมากมาย หากคุณเป็นคน IT ที่อยากทำงานท้าทายและร่วมงานกับองค์กรชั้นนำ สามารถฝากประวัติการทำงาน (Resume) ของคุณไว้กับ ISM ได้ที่ https://www.ismtech.net/submit-your-resume แล้วคุณจะพบว่าอนาคตและโอกาสก้าวหน้ากำลังรอคุณอยู่