R 自學指引 資料處理命令簡介與操作

文/圖:陸聲忠
資料處理是指對調查、觀察、實驗等研究活動中所收集到的資料進行檢驗、歸類編碼和數位編碼的過程。它是資料統計分析的基礎。以下將一一介紹資料處理作業中所使用的命令及操作。

要進行數據分析,在取得資料後,首先要做的就是將它整理成您想要的樣子,包括建立新變數、現有變數重新編碼與更名,資料的排序、合併與整合、重塑資料和將資料分組。將資料分組的流程包括選擇符合條件的觀察值,隨機抽樣觀察和丟棄或保留變數。

資料處理與相關作業

這類作業通常會使用到 R 內建的算術、邏輯運算子和數值、字串、統計等命令。除此之外,也可能需要使用控制結構如 if-then、for、while、switch 來建立自己的程式。有時也可能需要將變數或資料集從一種類型轉換到另一種類型,例如數值到字元或矩陣到資料框架(圖1)。所謂資料處理 (Data Processing),就是對資料進行一連串有計劃、有目的及有系統的處理。資料處理可能涉及以下作業(表1)。

圖1:常見資料處理方法。
圖1:常見資料處理方法。
流程 說明
驗證(Validation) 確保提供的資料是正確和相關的。
排序(Sorting) 將資料按某一特定的順序來排列處理。
總結(Summarization) 將細節資料減少到其要點。
整合(Aggregation) 整合多個資料。
分析(Analysis) 收集、組織、分析、解釋和呈現資料。
報告(Reporting) 列出詳細資訊或匯總資料或計算資訊。
分類(Classification) 將資料分成不同類別。

表1:資料處理涉及的作業。

建立新變數

有一個名為 mydata 的資料框架,其中的變數為 x1 和 x2,想建立兩個新變數 sum 、mean 來分別儲存以上兩個變數的和與平均值,我們便可以這樣做。
> x1<-1:3;x2<-4:6 (ENTER)
> mydata<-data.frame(x1,x2) (ENTER)
> mydata (ENTER)
x1 x2
1  1  4
2  2  5
3  3  6
> mydata$sum <- mydata$x1 + mydata$x2 (ENTER)
> mydata$mean <- (mydata$x1 + mydata$x2)/2 (ENTER)
> mydata (ENTER)
x1 x2 sum mean
1  1  4   5  2.5
2  2  5   7  3.5
3  3  6   9  4.5
也可以這樣做。
> attach(mydata) (ENTER)
The following objects are masked _by_ .GlobalEnv:
x1, x2
The following objects are masked from mydata (pos = 3):
x1, x2
> mydata$sum <- x1 + x2 (ENTER)
> mydata$mean <- (x1 + x2)/2 (ENTER)
> mydata (ENTER)
x1 x2 sum mean
1  1  4   5  2.5
2  2  5   7  3.5
3  3  6   9  4.5
還可以這樣做。
> detach(mydata) (ENTER)
> mydata<-transform(mydata, (ENTER)
+ sum <- x1 + x2, (ENTER)
+ mean <- (x1 + x2)/2) (ENTER)
> mydata (ENTER)
x1 x2 sum mean
1  1  4   5  2.5
2  2  5   7  3.5
3  3  6   9  4.5

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *