R語言論文

時(shí)間：2023-05-01 02:43:58 論文范文我要投稿

相關(guān)推薦

R語言論文

統(tǒng)計(jì)計(jì)算

R語言論文

分類數(shù)據(jù)的列聯(lián)表分析

信計(jì)1002班王秋燕 201020310216

分類數(shù)據(jù)的列聯(lián)表分析

第一部分：

統(tǒng)計(jì)學(xué)中根據(jù)變量取值類型的不同，把變量分為兩大類：離散型變量和連續(xù)型變量。離散型變量又稱為定量變量，可分為區(qū)間變量和比率變量。

稱變量為名義變量，如果變量的可能取值是沒有次序之分的幾個(gè)水平或狀態(tài)。稱變量為有序變量，如果變量的可能去只是有次序之分的幾個(gè)水平或狀態(tài)。

稱變量為連續(xù)型變量，如果變量的可能取值是某個(gè)連續(xù)區(qū)間。對(duì)離散型變量進(jìn)行抽樣取得的數(shù)據(jù)稱為分類數(shù)據(jù)，也稱為屬性數(shù)據(jù)。統(tǒng)計(jì)運(yùn)用于我們?nèi)粘Ｉ畹姆椒矫婷�，尤其是在社�?huì)科學(xué)中，常常采用列聯(lián)表來記錄我們所獲得資料，列聯(lián)表的資料看起來只是一個(gè)一個(gè)的資料，但這些由兩個(gè)或兩個(gè)以上的類別交叉組合得出的格子，行變量的類別用 r 表示,ri表示第

i個(gè)類別,列變量的類別用c

表示,cj表示第j個(gè)類別,每種組合的觀察頻次用fij

表示,表中列出了行變量和列變量的所有可能的組合，所以稱為列聯(lián)表，一個(gè)r行

c列的列聯(lián)表稱為r?c列聯(lián)表。通過運(yùn)用統(tǒng)計(jì)檢驗(yàn)方法，能夠幫助我們更清晰地

分析社會(huì)現(xiàn)象。

列聯(lián)表獨(dú)立性檢驗(yàn)是卡方擬合優(yōu)度檢驗(yàn)的一個(gè)特例，人們將兩個(gè)或多個(gè)特征分類數(shù)據(jù)即交叉分類數(shù)據(jù)以表格形式列出即列聯(lián)表，從而利用這些數(shù)據(jù)用來研究?jī)煞N或多種分類之間是否有某種聯(lián)系。

第二部分：

我們用統(tǒng)計(jì)理論來解決這個(gè)問題。方法一：我們采用獨(dú)立性的?2檢驗(yàn)。

?2檢驗(yàn)(Chi-square test)是現(xiàn)代統(tǒng)計(jì)學(xué)的創(chuàng)始人之一，K. Pearson（1857-1936）于1900年提出的一種具有廣泛用途的統(tǒng)計(jì)方法，可用于兩個(gè)或多個(gè)率（或者構(gòu)成比）之間的比較，計(jì)數(shù)資料的關(guān)聯(lián)度分析，擬合優(yōu)度檢驗(yàn)等。 ①?2檢驗(yàn)用途：

比較稱名變量的次數(shù)，具體來講，就是比較實(shí)際次數(shù)與期望次數(shù)（或理論次數(shù)）之間是否有相助差異，或研究檢驗(yàn)觀察值與理論值之間的緊密程度。?2擬合檢驗(yàn)就是用來確定事件出現(xiàn)的頻數(shù)分布與某一理論分布之間的差別是否是隨

機(jī)性的。

②?2分布基本思想：第一，屬連續(xù)型分布，第二，可加性是其基本性質(zhì)，第三，唯一參數(shù)，即自由度。

（1）自由度為1的?2分布，若Z~N(0,1)，則Z2的分布稱為自由度為1的?2

2（Chi-square distribution）,記為?(1)或?2(1)。

（2）Z1,Z2......Zv互相獨(dú)立，均服從N（0,1），則Z12?Z22?......?Zv2的分布稱自由度為V的?

2?(2v)近

的正態(tài)分布。

圖一

③?2檢驗(yàn)（chi-square distribution）基本公式：? ??T,

(A?T)

??(R?1)(C?1)

上述基本公式由K. Pearson提出，因此許多統(tǒng)計(jì)軟件上常稱這種檢驗(yàn)為Pearson’s Chi-square test，其他卡方檢驗(yàn)都是在此基礎(chǔ)上發(fā)展起來的\。 ④?2檢驗(yàn)主要有三個(gè)：適應(yīng)性檢驗(yàn)，正態(tài)性檢驗(yàn)以及獨(dú)立性檢驗(yàn)。

（1）適合性檢驗(yàn)為單樣本卡方檢驗(yàn)，它只是記一個(gè)變量，但數(shù)據(jù)要分成若干相互排斥的組和范疇。其目的是檢驗(yàn)時(shí)間次數(shù)與期望次數(shù)是否吻合。

? np( 實(shí)統(tǒng)計(jì)量： 2 (n i ) ，實(shí)質(zhì)是：測(cè) 頻數(shù) ? 理論頻數(shù) ) 2

???i???npi理論頻數(shù)i?1i?1

適合性檢驗(yàn)是用樣本提供的信息去推斷總體分布是否適合某種已知的規(guī)律。（2）正態(tài)性檢驗(yàn)，用卡方檢驗(yàn)進(jìn)行正態(tài)性檢驗(yàn)其實(shí)也是一種適合性檢驗(yàn)，即檢驗(yàn)實(shí)際次數(shù)分布與期望次數(shù)分布是否有顯著性差異。

（3）獨(dú)立性檢驗(yàn)就是檢驗(yàn)兩個(gè)特征或兩個(gè)分類標(biāo)準(zhǔn)是互相獨(dú)立的還是互有聯(lián)系的。用于獨(dú)立性檢驗(yàn)的數(shù)據(jù)一般整理成“列聯(lián)表”的形式，即一個(gè)分類標(biāo)準(zhǔn)把

數(shù)據(jù)分為若干列，另一個(gè)分類標(biāo)準(zhǔn)把數(shù)據(jù)分為若干行，行列交叉形成一個(gè)個(gè)的方格。每一行和每一列都有一個(gè)總計(jì)，書寫在一行或一列的末尾，稱為“邊際總和”。所有邊際和加起來就是全部數(shù)據(jù)的個(gè)數(shù)或樣本容量（N）。獨(dú)立性檢驗(yàn)的分析步驟：第一步：建立假設(shè)與備擇假設(shè)：

H0：pij＝pi?pj（行變量與列變量獨(dú)立）； H1： pij=pi?pj（行變量與列變量不獨(dú)立）。第二步：確定適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量為chi-square；

第三步：規(guī)定顯著性水平?，查表得出拒絕域和臨界值；第四步：運(yùn)用R語言命令運(yùn)行；?

第五步：作出判斷將檢驗(yàn)統(tǒng)計(jì)量的值與?水平的臨界值進(jìn)行比較，得出接受或拒絕原假設(shè)的結(jié)論：若樣本統(tǒng)計(jì)量的值落入拒絕域，則拒絕原假設(shè)，接受備擇假設(shè)

H1；否則，接受H0。

?2統(tǒng)計(jì)量用于檢驗(yàn)列聯(lián)表中變量之間是否存在顯著性差異，或者用于檢驗(yàn)變量之間是否獨(dú)立。當(dāng)n很大，每格eij都不太小時(shí)，服從自由度k?(r?1)(c?1)的

?分布，計(jì)算公式為：，其自由度為(r?1)(c?1)，nij一列聯(lián)

eij一列聯(lián)表只第表中第i行第j列類別的實(shí)際頻數(shù)，i行第j列類別的實(shí)際頻數(shù)。 2rc

方法二：Fisher精準(zhǔn)檢驗(yàn)

i?1

j?1

(nij?eij)

eij

Fisher精準(zhǔn)檢驗(yàn)是列聯(lián)表行變量和列變量獨(dú)立性的另一種檢驗(yàn)方法，F(xiàn)isher精準(zhǔn)檢驗(yàn)是在行與列邊際總數(shù)固定的假設(shè)下，利用超幾何分布，用枚舉法計(jì)算列聯(lián)表可能出現(xiàn)情況的概率，此時(shí)要檢驗(yàn)的問題仍是

HO:行變量和列變量相互獨(dú)立。（1）首先介紹多元幾何的多元推廣，它是超幾何分布的多元推廣。定義：設(shè)隨機(jī)向量X=(x1,x2,???xr)滿足條件:

（1）0?Xi?Ni（i=1,2,...,r），且N1?N2?...?Nr?N，

（2）m1,m2,...,mr為r個(gè)非負(fù)整數(shù)，o?mi?Ni且?mi?m(0?m?N)，事件概率

i?1

由下式給出：

(

P((X1,X2,...XR)?(m1,m2,...mr))?

N1m1

)(

N2m2(N

)...()

Nrmr

m!(N?m)!?Ni!

i?1

，則稱X

N!?mi!(Ni?mi)!

i?1

服從多元超幾何分布，記為X~MH(N1,N2,...Nr;m).

多元超幾何分布的背景如下，共有N個(gè)個(gè)體分為r類，其中第i(i?1,2,...,r)類有Ni個(gè)，現(xiàn)從總體中等可能無放回的抽取m個(gè)個(gè)體，用Xi表示m個(gè)個(gè)體中屬于第i類的個(gè)數(shù)，則X?(X1,X2,...,Xr)服從多元超幾何分布。特別當(dāng)r?2時(shí)，多元超幾何分布就是超幾何分布。

①2?2表Fisher精準(zhǔn)檢驗(yàn)：觀測(cè)表（Table）概率，雙側(cè)（Twosided）p值，左側(cè)（Leftsided）p值，右側(cè)（Rightsided）p值。

觀測(cè)表概率是按超幾何分布計(jì)算的所觀測(cè)到表格的概率。較小的雙側(cè)p值有利于行變量和列變量有關(guān)聯(lián)的備擇假設(shè)。對(duì)于2?2表，當(dāng)行列邊際總數(shù)固定時(shí)，如表1，n11的數(shù)值完全決定了整個(gè)表格，n11記為（1,1）單元格可能出現(xiàn)的頻數(shù)，則Fisher精準(zhǔn)檢驗(yàn)的左側(cè)p值是事件{n11?F}的概率，右側(cè)值是事件{n11?F}的概率。

表1

n11?F Leftsided p=

p(n11)?p(n11?F)

P(n11)?

n11?F

p(n11), Rightsided p=

n11?F

p(n11)。

如表1，在行邊際總數(shù)固定條件下，可以把row1和row2兩行看成兩個(gè)獨(dú)立的二項(xiàng)分布總體，則檢驗(yàn)問題（1）中的H0相當(dāng)于row1和row2有相同的二項(xiàng)分布，所以檢驗(yàn)問題（1）寫成

H0:p(Y?coll)?p(Y?collX?row1)?p(Y?collX?row2)，結(jié)合表1，則

HO:p?1?

p1p1?

p2?

。 (2)

由此不難理解，在Fisher精準(zhǔn)檢驗(yàn)中，與檢驗(yàn)水平?相比較，小的左側(cè)p值有利于備擇假設(shè)：對(duì)于row1總體，觀測(cè)屬于coll的概率，小于其期望概率；小的右側(cè)p值有利于備擇假設(shè)：對(duì)于row1總體，觀測(cè)屬于coll的概率，大于其期望概率。即左側(cè)p值和右側(cè)p值分別對(duì)應(yīng)檢驗(yàn)問題(2)的如下備擇假設(shè);

?H1:p11p1??p?1,Leftside?

?H2:P11P1??P?1,Rightside

p,p,

，

綜上所述，對(duì)2?2表，F(xiàn)isher精準(zhǔn)檢驗(yàn)的左側(cè)p值小于檢驗(yàn)水平，說明row1的coll風(fēng)險(xiǎn)小于row2的coll風(fēng)險(xiǎn)，即p?p12，又等價(jià)于OR（Odds Ratio,優(yōu)比比率）大于1。右側(cè)p值小于檢驗(yàn)水平，說明row1的coll風(fēng)險(xiǎn)大于row2的coll風(fēng)險(xiǎn)，即p?p12。

第三部分：

用R語言解決

> x dim(x) rcl rcl （輸出結(jié)果） V1 v2 2 4 3 6

> dimnames(rcl)[[1]] dimnames(rcl)[[2]] rcl（輸出結(jié)果） b1 b2 a1 2 6 a2 5 7

> Chisq.test(rcl)(用皮爾松卡方檢驗(yàn))

Pearson's Chi-squared test with Yates' continuity correction data: rcl

X-squared = 0.0824, df = 1, p-value = 0.774（輸出結(jié)果）

最后看p-value值，p-value0.05,接受原假設(shè)，兩者是獨(dú)立的，沒有關(guān)系。從結(jié)論看，p-value = 0.774，接受原假設(shè)，兩者是獨(dú)立沒有關(guān)系的。

第四部分

例子：為了調(diào)查吸煙是否對(duì)肺癌有影響，某腫瘤研究所隨機(jī)地調(diào)查了9965人，得到如下結(jié)果（單位：人）。

> dim(s)=c(2,2) > s

[,1] [,2] [1,] 7775 42 [2,] 2099 49 > rcl rcl V1 V2 1 7775 42 2 2099 49