วันพุธที่ 4 พฤศจิกายน พ.ศ. 2558

การใช้ R วิเคราะห์ ANOVA (How to do ANOVA in R)



     แผนการทดลองแบบง่ายที่นักวิจัยใช้กันบ่อยคือแผนการทดลองแบบ CRD (completely Randomized Design) โดยเมื่อเรามีหน่วยทดลองที่มีความเหมือนกันอยู่และสามารถสุ่มจัดสิ่งทดลอง ให้กับทุกหน่วยได้โดยไม่มีข้อจำกัดใดๆ เช่น จากตัวอย่างใน Kuehl (2001) ซึ่ง เป็นการทดลองการบรรจุ 4 แบบ คือบรรจุถุงปรกติ (Commercial) ถุึงสุญญากาศ (Vacuum) บรรจุโดยใช้แก๊สผสม (Mixed gas) และใช้คาร์บอนไดออกไซด์ (CO2) วางแผนการทดลองโดยใช้ชิ้นเนื้อสเต็ก 12 ชิ้น สุ่มบรรจุ 4 แบบ (3 ซ้ำ) ดังแสดงในรูป วัดจำนวนจุลินทรีย์หลังจากเก็บไว้ที่ 4 องศาเซลเซียสเป็นเวลา 9 วัน



โดยไฟล์ csv ที่ได้เตรียมไว้มีหน้าตาดังรูป


เลือกไฟล์แบบ Interactive ด้วย file.choose()

> data <- file.choose()
> test <- read.csv(data)
> test
    treatment count
1  commercial  7.66
2  commercial  6.98
3  commercial  7.80
4      vacuum  5.26
5      vacuum  5.44
6      vacuum  5.80
7   mixed gas  7.41
8   mixed gas  7.33
9   mixed gas  7.04
10        CO2  3.51
11        CO2  2.91
12        CO2  3.66
> str(test)
'data.frame':   12 obs. of  2 variables:
 $ treatment: Factor w/ 4 levels "CO2","commercial",..: 2 2 2 4 4 4 3 3 3 1 ...
 $ count    : num  7.66 6.98 7.8 5.26 5.44 5.8 7.41 7.33 7.04 3.51 ...



      เราจะได้ข้อมูล test ในรูปของ data.frame ซึ่งประกอบด้วยข้อมูล treatment ซึ่งเป็นข้อมูลแบบ factor 4 ระดับ (ตามชื่อ treatment)  และ count เป็นจำนวนจุลินทรีย์ในแต่ละ treatment จำนวน treatment ละ 3 ซ้ำ

     จากนั้นทำการวิเคราะห์ ANOVA ด้วยฟังก์ชั่น aov() และใช้ฟังก์ชั่น summary() เพื่อสรุปข้อมูลให้อยู่ในรูปตาราง ANOVA แบบที่พบโดยทั่วไป

> m <-aov(count~treatment,data=test)
> summary(m)
            Df Sum Sq Mean Sq F value   Pr(>F)   
treatment    3  32.87  10.958   94.58 1.38e-06 ***
Residuals    8   0.93   0.116                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


     จากตาราง ANOVA จะเห็นได้ว่าค่า Pr (>F) มีค่าต่ำมาก (1.38e-6) แสดงว่า treatment มีความแตกต่างกันอย่างมีนัยสำคัญ

      จากนั้นเราสามารถทำการวิเคราะห์ post-anova แบบต่างๆ ได้ เช่นการทำ multiple comparison โดยฟังก์ชันที่มีมากับ R คือฟังก์ชันสำหรับวิเคราะห์โดยใช้วิธี Tukey ด้วยฟังก์ชั่น TukeyHSD()

> TukeyHSD(m,"treatment")
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = count ~ treatment, data = test)

$treatment
                      diff       lwr       upr     p adj
commercial-CO2        4.12  3.230038  5.009962 0.0000020
mixed gas-CO2         3.90  3.010038  4.789962 0.0000031
vacuum-CO2            2.14  1.250038  3.029962 0.0002639
mixed gas-commercial -0.22 -1.109962  0.669962 0.8563618
vacuum-commercial    -1.98 -2.869962 -1.090038 0.0004549
vacuum-mixed gas     -1.76 -2.649962 -0.870038 0.0010160


   จากค่า p เราสามารถดูได้ว่าคู่ของสิ่งทดลองคู่ใดมีความแตกต่างกันบ้าง โดยในตัวอย่างนี้จะเห็นว่ามีเพียงคู่ mixed gas - commercial เท่านั้นที่ non-significant 


เอกสารอ้างอิง
Kuehl RO. 2000. Design of experiment: statistical principles of research design and analysis. Pacific Grove: Duxbury Press. 666 p.  

ไม่มีความคิดเห็น:

แสดงความคิดเห็น