《統計數字會撒謊》經典語錄

欄目: 經典語錄 / 釋出於: / 人氣:2.74W

經典語錄

事實往往在所見所聞之外。平均數、作用關係、趨勢和圖表總是與看上去的不一致。雖然經驗告訴我們"眼見為實"，但眼睛告訴我們的"真相"或許隱瞞了部分事實，或許誇大了事實。

一些反對*調查的最強烈的情緒來自於自由主義者或是左翼集團，他們普遍認為這些調查都是人為*縱的。這種觀點背後的事實是：*調查結果經常與那些思想開放人士的觀點和意願不相符合。他們指出，*調查的結果選擇了共和黨人，但不久之後選票者卻做出了相反的選擇。但實際上，正如我們前面所看到的，*調查並不一定是*縱了，也就是說，並不一定要為了製造假象而惡意扭曲結果。樣本有偏的趨勢本身就可以自動地*縱結果，使其變得扭曲。

隨機樣本的檢驗方法是：總體中的每個名字或每個事物是否具有相同的機率被選進樣本？純隨機樣本是惟一有足夠把握經受統計理論審查的樣本。但它也有不足之處，在很多情況下，獲得這種樣本的難度很大並且十分昂貴，以至於單純考慮成本就會排除它。分層隨機抽樣是一個更經濟的替代品，目前在*調查和市場研究等領域中得到了廣泛的應用。

所以，當你被告知某個數是平均數時，除非能說出它的具體種類--均值，中位數，還是眾數，否則你對它的具體涵義仍知之甚少。

統計這種神祕的語言，在一個靠事實說話的社會裡是如此地吸引眼球，但有時它卻被人利用，併成為惡意誇大或簡化事實、迷惑他人的工具。在報告社會經濟趨勢、商業狀況、*調查和普查的大量資料時，統計方法或者統計術語是必不可少的。但如果作者不能正確理解並恰當地使用這些統計語言，而讀者又並不能真正瞭解這些術語的含義，那麼，統計結果只能是廢話一堆。

一位心理醫生曾經寫道：實際上每個人都有點神經質。暫且不去管這種提法是否破壞了"神經質"一詞的含義，我們來看看這個醫生的樣本，也就是說，他觀察了哪些人才得到了上述結論？事實上，他是在對他的病人進行研究後才得到了這個發人深省的結論，這和代表全體人的樣本可差的是十萬八千里。想想看，如果一個人心理健全，他是永遠都不會接受心理醫生的治療的。

我們可以定量地衡量你的樣本能以多大的精度代表總體，那就是：可能誤差和標準誤差。

我們試著來解釋這個數字，單憑常識就知道這個數字與現實出入很大。現在，讓我們找找最大誤差的可能來源。是什麼使那些實際上收入也許只有25111美元一半的人們最終會擁有如此豐厚的平均收入？讓我們來揭開這神祕的面紗。可以肯定的是：耶魯畢業生的報道基於對某個樣本的分析，因為常識告訴我們，沒有人能夠掌握所有仍在世的1924級學生的情況，25年後，他們中的許多人已經消失在茫茫人海中。

一般而言，*調查都帶有一定方向的誤差。就像前文所舉《文學文摘》例子的偏差一樣，如果對此表示懷疑，你還可以找到許多恰當的例子來*。在《文學文摘》的例子中，與希望代表的全體選民相比，由於偏向了比平均選民收入更高、受過更多教育、資訊面更廣、反應更快、舉止優雅、行為保守、更多固定習慣等特點的群體，而產生了誤差。

無形的誤差與有形的誤差一樣容易破壞樣本的可信度。也就是說，即使你找不到任何破壞*的誤差來源，但只要有產生誤差的可能*，你就有必要對結果保留一定的懷疑。

在處理諸如人類特徵的資料時，各種平均數的數值十分接近。這些資料具有我們常說的常態分佈的形態特點，在你用曲線繪製常態分佈時，將看到一根鐘形的曲線，均值、中位數和眾數都落在相同的點上。

多少才算夠呢？這又是個棘手的問題。它取決於其他的因素，即你採用抽樣方式所研究的總體容量有多大、變動程度有多大。值得一提的是，有時樣本的規模與看上去的並不一致。

Tags：統計數字撒謊經典語錄