5 ความรู้พื้นฐานสถิติที่ Data Analyst ทุกคนต้องรู้

พื้นฐานสถิติที่ได้ใช้ทุกวัน อยู่ในทุกๆการตัดสินใจของเรา

5 ความรู้พื้นฐานสถิติที่ Data Analyst ทุกคนต้องรู้

สถิติเป็นวิชาที่กว้างใหญ่มากๆ และเป็นหัวใจสำคัญของการทำงานด้าน data science หลายครั้งแอดยังแอบคิดเลยว่า data scientist ก็คือนักสถิติที่เปลี่ยนชื่อตำแหน่งมาทำงานเลย (แซว) 555+

แอดคัด 5 concepts พื้นฐานสถิติที่ data analyst ทุกคนต้องรู้จักมาอธิบายใน newsletter ฉบับนี้ อ่านจบ เข้าใจใช้เป็น เก่งขึ้นแน่นอน

Observational vs. Experimental studies

ถ้าใครเคยอ่านหนังสือ introductory statistics บทแรกๆจะเป็นเนื้อหาเกี่ยวกับ research design การกำหนดรูปแบบของ studies วิธีการเก็บข้อมูล sampling frame เป็นต้น

แต่คนส่วนใหญ่มักข้าม section นี้ของหนังสือไปเลย อ้าว 🤣

เหตุผลที่วิชาสถิติหยิบเรื่องนี้มาอธิบายในบทแรกๆก็เพราะว่ามันสำคัญมาก เป็นเหมือนพื้นฐานที่ทุกคนต้องรู้ก่อนจะคำนวณค่าสถิติใดๆ การออกแบบงานวิจัยเป็นทักษะพื้นฐานของคนที่ต้องใช้สถิติ

รูปแบบของงานวิจัยจะแบ่งเป็น 2 ประเภทหลักๆคือ

  • Observational studies เช่น การทำ survey หรือการนำ secondary data มาวิเคราะห์ต่อ
  • Experimental studies คือการทดลองที่นักวิจัยสามารถควบคุมปัจจัยบางอย่างในงานได้

ทำไมเราต้องแยกให้ออกระหว่างงานแบบ observational vs. experimental? เพราะการสรุปผลสถิติของเราขึ้นอยู่กับรูปแบบงานวิจัยที่เรากำหนดในตอนแรก

Observation ช่วยให้เราได้ information เพื่อเข้าใจเรื่องบางอย่างได้ดีขึ้น ส่วนงานวิจัยแบบ Experiment ช่วยให้เราสรุปผลแบบ cause-and-effect หรือ causal relationships ได้

หรือพูดอีกมุมหนึ่งคืองาน survey ทั้งหมด ไม่ว่าจะเป็น online/ offline ทำแบบสอบถามมาดีแค่ไหน เราในฐานะนักวิจัยไม่สามารถสรุปผลแบบ cause-and-effect ใดๆได้เลย

ตอนทำงานจริงจะมีเส้นบางๆที่เราต้องแยกให้ออกระหว่าง correlation และ causation

Correlation does not imply causation

ประโยคสุดคลาสสิคของนักสถิติทุกคนคือ correlation does not imply causation

  • Correlation แปลว่า ตัวแปรสองตัวมีความสัมพันธ์กัน
  • Causation แปลว่า x ทำให้เกิด y (เป็นเหตุเป็นผลกันหรือ x causes y)

ทุกๆ causal relationships จะมี correlation เสมอ แต่ไม่ใช่ในทางตรงข้าม ถ้าตัวแปรสองตัวมี correlation ไม่ได้แปลว่าต้องเป็น causation

วิธีการเดียวที่จะทดสอบ causation ได้คือการทำ experimentation และ gold standard ที่เราใช้กันมาตั้งแต่ปี 1800s คือ RCT หรือ randomized controlled trial

ถึงแม้เราจะพูดประโยคนี้กันบ่อยๆ แต่ตอนทำงานจริงก็ยังเจอการสรุปผลแบบผิดๆเยอะมาก โดยเฉพาะ political/ economic issues เช่น การปรับเงินค่าจ้างขั้นต่ำจะช่วยยกระดับความเป็นอยู่คนไทยให้ดีขึ้น (how? อันนี้เป็น strong claim มากๆ ปัญหาเศรษฐกิจซับซ้อนกว่าที่ตาเราเห็น)

Big data ก็เกิดขึ้นมาพร้อมกับปัญหานี้แบบหนีไม่พ้น พอตัวแปรที่เราวิเคราะห์มีมากขึ้น เราก็มีโอกาสเจอ spurious correlation เยอะขึ้นถึงแม้ว่าความสัมพันธ์นั้นจะเป็นแค่เรื่องบังเอิญ

ตัวอย่างที่เราเห็นในหนังสือสถิติบ่อยๆ เช่น ยอดขายไอติมกับจำนวนคนที่โดนฉลามกัดที่ประเทศออสเตรเลียมีความสัมพันธ์เชิงบวก (+) แต่จริงๆความสัมพันธ์ที่เราเห็นเกิดจากอุณหภูมิที่สูงขึ้น

  • Higher temperature => more people go to beaches
  • Higher temperature => more people eat more ice cream

ตัวแปรสองตัวมีความสัมพันธ์กัน แต่ไม่ได้แปลว่ามันมี causal relationship เวลาสรุปผลสถิติใน business context เราในฐานะ data analyst ต้องเลือกใช้คำให้เหมาะสม

อย่าด่วนสรุปผลว่า "การเพิ่มงบการตลาดบน social media จะช่วยทำให้ยอดขายสูงขึ้น" และยิ่งไม่ควรพูดแบบนี้เวลาที่ข้อมูลเก็บมาจาก observational studies เท่านั้น

Learning from data

มนุษย์เรียนรู้จากประสบการณ์ สิ่งที่เกิดมาขึ้นแล้วกลายเป็น data points ให้สมองนำไปใช้งาน และสิ่งที่ทำให้มนุษย์ต่างจากสิ่งมีชีวิตอื่นๆคือความสามารถในการเรียนรู้

สมการการเรียนรู้ในสมอง ถ้าแอดเขียนแบบง่ายๆเลยก็คือ

updated knowledge = prior knowledge + new data

ความรู้ที่อัพเดทใหม่ เกิดจากความรู้เดิม + ข้อมูลใหม่ เหมือนอัพเดท patch ใน computer software เป็นเวอร์ชันที่ดีขึ้น คำถามคือในโลกสถิติมีสมการที่สะท้อนรูปแบบการเรียนรู้แบบนี้ไหม?

มีแน่นอน! Bayes Theorem คือสมการระดับตำนานที่ reflect สมการการเรียนรู้ด้านบนเป๊ะๆ ตั้งชื่อตาม Thomas Bayes (1701-1761) ผู้ริเริ่มไอเดียนี้ครั้งแรกเมื่อสามร้อยปีที่แล้ว

posterior knowledge = prior knowledge + new data

Bayes เรียกฝั่งซ้ายของสมการว่า posterior ที่แปลว่า coming after, later ส่วนความรู้ที่มีอยู่ก่อนแล้วเรียกว่า prior แปลตรงๆตามชื่อได้เลย ตัวอย่างเช่น

ถ้าวันนี้เราได้ยินว่าภาพยนตร์เรื่อง Ant-Man Quantumania สนุกมาก เราอาจจะให้ rating เรื่องนี้ในใจที่ 8 คะแนน (prior) พอเราซื้อบัตรไปดูหนังเรื่องนี้จบ (new data coming in) หนังดีเกินคาด สนุกกว่าที่คิด เราอัพเดท rating ใหม่เป็น 9.5 คะแนน (posterior)

Bayes Theorem ถูกนำไปใช้งานในหลายๆ applications ตั้งแต่การค้นหาตำแหน่งของเรืออับปางในมหาสมุทร การวัดผลแคมเปญบน Facebook ไปจนถึงการทดสอบประสิทธิภาพของยาตัวใหม่

ถ้าใครเคยดูหนังเรื่อง The Imitation Game ที่เล่าเรื่อง Alan Turing กับการถอดรหัส Enigma ในยุคสงครามโลกครั้งที่สอง เค้าก็ใช้ Bayesian Theory ในการแก้ปัญหานี้เหมือนกัน ช่วยให้สงครามโลกจบเร็วขึ้น และช่วยลดการสูญเสียชีวิตผู้คนในยุคนั้นมากกว่า 2 ล้านคน

และทั้งหมดเริ่มต้นจากสมการง่ายๆที่เรียกว่า Bayes Theorem - learning from data

Avoid overfitting

ปี 2010 ตอนแอดเรียน Econometrics เทรนโมเดล regression อาจารย์ไม่เคยสอนให้ split data เพื่อสร้างและทดสอบโมเดลเลย ส่วนใหญ่เรา train model กับ full data ที่เราเก็บมาทันที

รันโมเดลเสร็จได้ R-squared 92% ตื่นเต้นจัด เอาผลเขียนส่งอาจารย์ สอบผ่านมาแบบงงๆ 555+ แต่ไม่รู้เลยว่า 92% ไม่ได้แปลว่าโมเดลเราทำงานได้ดีจริงๆ มีโอกาสสูงมากที่โมเดลเราจะ overfit

เพราะตะกี้เราเทรนโมเดลกับ full data ไม่ได้แบ่งข้อมูลไว้ทำการทดสอบโมเดลเลย

Overfitting คือปัญหาเวลาที่ model ที่เราสร้างขึ้นมาเรียนรู้ training data ดีเกินไปจนไม่สามารถนำไปใช้กับ new/ unseen data ได้

วิธีการลดปัญหา overfitting แบบง่ายที่สุดคือการทำ train-test-split

  • แบ่งข้อมูลออกเป็นสองส่วน (split)
  • train 70% test 30% สัดส่วนสามารถเปลี่ยนได้ตามความเหมาะสม
  • สร้างโมเดลด้วย train data เสร็จแล้วทดสอบด้วย test data

Good-fit model ต้องทำงานได้ดีทั้งใน train และ test data ตัวอย่างเช่น ค่า R-squared ที่คำนวณได้ต้องมีค่าใกล้เคียงกันทั้งตอน train และ test ศัพท์เทคนิคเรียกว่า generalization

Overfitting ไม่ได้เกิดขึ้นแค่ในงาน data เท่านั้น แต่มันเป็น bias ที่มีติดตัวมนุษย์เราทุกคน เวลาเราได้รับ information ใหม่ที่เราไม่เคยรู้มาก่อน บางทีเราจะรู้สึกว่าข้อมูลใหม่มันขัดกับสิ่งที่มีในหัวเรา

ถ้าใครเคยรู้สึกแบบนั้น ตัวเราอาจจะกำลัง overfit กับข้อมูลเก่ามากเกินไปก็ได้ 🤓 การเปิดใจรับข้อมูลใหม่ๆ ใช้มัน update ความเชื่อเก่าของเราคือการ learning from data ตามทฤษฎี Bayes

Statistical hypotheses

สถิติที่เราเรียนกันในมหาวิทยาลัยจะสอนหนักไปทาง Frequentist school โดยบิดาของสายนี้คือ Ronald Fisher และพัฒนาต่อยอดมาเรื่อยๆโดย Jerzy Neyman และ Egon Pearson

แอดจะยังไม่แตะเรื่องประวัติศาสตร์ในบทความนี้ แต่อยากบอกทุกคนว่า Ronald Fisher คือคนคิด p-value ในปี 1925 กับเปเปอร์ในตำนาน "Statistical methods for research workers"

การตั้งสมมติฐานที่สอนกันมาใน frequentist textbook จะจับกลุ่มเป็นกลุ่มใหญ่ๆได้ 3 แบบ

  1. Comparison - เปรียบเทียบกลุ่ม
  2. Association - หาความสัมพันธ์
  3. Prediction - อธิบายโมเดลทำนายผล

ตัวอย่างเช่น ถ้าเราอยากรู้ว่าแคมเปญการตลาด A vs. B แบบไหนจะได้ conversion rate ดีกว่ากัน? อันนี้จะเข้าข่าย comparison เขียนเป็นสมมติฐานสไตล์ frequentist ได้แบบนี้

Ho: conversion rate for campaign A = B | Ha: conversion rate for campaign A != B

ถ้าเราอยากหาความสัมพันธ์ของยอดขายและเงินโฆษณาบน Facebook? อันนี้จะกลายเป็นโจทย์แบบ association เขียนสมมติฐานได้แบบนี้

Ho: correlation between sales and ads = 0 | Ha: correlation != 0

คำถามที่ business อยากรู้เป็นตัวกำหนด hypotheses ที่เราจะทดสอบ

ทำไมทุกคนถึงต้องรู้เรื่องนี้? เพราะทุกโปรเจ็ค data science ที่มีการใช้งานสถิติจะมีเรื่องการทดสอบสมมติฐานเกี่ยวข้องด้วยเกือบทุกครั้ง

ถ้าเรารู้ว่างานของเราต้องใช้สมมติฐานแบบไหน comparison, association หรือ prediction การเก็บข้อมูล การเลือกใช้ test statistics และการสรุปผลสถิติก็จะง่ายขึ้นเยอะเลย

📝 การทดสอบสมมติฐานทางสถิติจริงๆทำได้ทั้งแบบ Frequentist และ Bayesian ส่วนใหญ่ได้ผลลัพธ์ไปในทิศทางเดียวกัน แต่ในวิชา undergraduate statistics เราสอน Bayes กันน้อยมาก

Awesome Work!

ยังอ่านกันอยู่อีกหรอ 555+ ขอบคุณมากๆครับทุกคนที่อ่านมาจนจบ

ถ้าใครอ่านมาถึงตรงนี้ You're awesome! อ่านแล้วชอบมั้ย ได้ไอเดียอะไรบ้าง comment แชร์กันได้นะครับ แอดเข้ามาตอบทุกโพสต์เลย แล้วพบกันใหม่กับ newsletter ฉบับหน้านะครับ

❤️ A Humble Guide to Data Science | Facebook

Subscribe to Humble Guide to Data Science

Don’t miss out on the latest issues. Sign up now to get access to the library of members-only issues.
jamie@example.com
Subscribe