Yahoo奇摩 網頁搜尋

搜尋結果

  1. 其他人也問了

  2. 2023年7月24日 · 小結. 統計到底哪裡可以用得到? 又要怎麼開始呢? 剛開始想了解資料與統計的同學們,常常聽到資料界的工程師說分析、模型都要用到統計的觀念,但統計的觀念運用在哪,卻總是難以具體地感受到。 找來一本統計課本,卻對一開始的基本知識感到疏遠而容易失去興趣。 所以我希望透過本文中的簡單例子,來介紹一些統計的概念。 希望透過例子,讓你了解統計的使用情境與產生興趣。 為了簡單的傳達概念,文章內容會省略掉一些計算細節,然後會出現幾個對剛開始想了解統計的人來說陌生的名詞,但大致不妨礙這篇文章想傳達的概念。 希望平常忙碌的你,可以因為這邊粗淺的介紹,讓你產生較具體的感覺跟興趣。 而更多細節,在你看完並且還想進一步了解後,就可以拿一本統計學課本來好好的來研究喔。

    • 統計學到底有多重要?
    • 統計學——特徵
    • 統計學——概率分佈
    • 統計學——降維
    • 統計學——過取樣和欠取樣
    • 統計學——貝葉斯統計

    在回答資料分析入門要具備什麼樣的能力的問題中,我經常提到統計學知識,統計學是一種利用數學理論來進行資料分析的技術,通過統計學我們可以用更富有資訊驅動力和針對性的方式對資料進行操作。 在資料分析工作中,利用統計學,我們可以更深入、更細緻地觀察資料是如何進行精確組織的,並且基於這種組織結構確定資料分析的方法,來獲取更多的資訊。今天給大家介紹資料分析中常用的五個統計基本概念。

    特徵統計可能是資料科學中最常用的統計學概念。它是你在研究資料集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。理解特徵統計並且在程式碼中實現都是非常容易的。請看下圖: 上圖中,中間的直線表示資料的中位數。中位數用在平均值上,因為它對異常值更具有魯棒性。第一個四分位數本質上是第二十五百分位數,即資料中的25%要低於該值。第三個四分位數是第七十五百分位數,即資料中的75%要低於該值。而最大值和最小值表示該資料範圍的上下兩端。 箱形圖很好地說明了基本統計特徵的作用: 1. 當箱形圖很短時,就意味著很多資料點是相似的,因為很多值是在一個很小的範圍內分佈; 2. 當箱形圖較高時,就意味著大部分的資料點之間的差異很大,因為這些值分佈的很廣; 3. 如果中位數接近了底部,那麼大部分的資料...

    我們可以將概率定義為一些事件將要發生的可能性大小,以百分數來表示。在資料科學領域中,這通常被量化到0到1的區間範圍內,其中0表示事件確定不會發生,而1表示事件確定會發生。那麼,概率分佈就是表示所有可能值出現的機率的函數。請看下圖: 常見的概率分佈,均勻分佈(上)、正態分佈(中間)、泊松分佈(下): 1. 均勻分佈是其中最基本的概率分佈方式。它有一個只出現在一定範圍內的值,而在該範圍之外的都是0。我們也可以把它考慮為是一個具有兩個分類的變數:0或另一個值。分類變數可能具有除0之外的多個值,但我們仍然可以將其視覺化為多個均勻分佈的分段函數 2. 正態分佈,通常也稱為高斯分佈,具體是由它的平均值和標準偏差來定義的。平均值是在空間上來回變化位置進行分佈的,而標準偏差控制著它的分佈擴散範圍。與其它的分...

    降維這個術語可以很直觀的理解,意思是降低一個數據集的維數。在資料科學中,這是特徵變數的數量。請看下圖: 上圖中的立方體表示我們的資料集,它有3個維度,總共1000個點。以現在的計算能力,計算1000個點很容易,但如果更大的規模,就會遇到麻煩了。然而,僅僅從二維的角度來看我們的資料,比如從立方體一側的角度,可以看到劃分所有的顏色是很容易的。 通過降維,我們將3D資料展現到2D平面上,這有效地把我們需要計算的點的數量減少到100個,大大節省了計算量。 另一種方式是我們可以通過特徵剪枝來減少維數。利用這種方法,我們刪除任何所看到的特徵對分析都不重要。 例如,在研究資料集之後,我們可能會發現,在10個特徵中,有7個特徵與輸出具有很高的相關性,而其它3個則具有非常低的相關性。那麼,這3個低相關性的特徵...

    過取樣和欠取樣是用於分類問題的技術。例如,我們有1種分類的2000個樣本,但第2種分類只有200個樣本。這將拋開我們嘗試和使用的許多機器學習技術來給資料建模並進行預測。那麼,過取樣和欠取樣可以應對這種情況。請看下圖: 在上面圖中的左右兩側,藍色分類比橙色分類有更多的樣本。在這種情況下,我們有2個預處理選擇,可以幫助機器學習模型進行訓練。 欠取樣意味著我們將只從樣本多的分類中選擇一些資料,而儘量多的使用樣本少的分類樣本。這種選擇應該是為了保持分類的概率分佈。我們只是通過更少的抽樣來讓資料集更均衡。 過取樣意味著我們將要建立少數分類的副本,以便具有與多數分類相同的樣本數量。副本將被製作成保持少數分類的分佈。我們只是在沒有獲得更多資料的情況下讓資料集更加均衡。

    完全理解為什麼在我們使用貝葉斯統計的時候,要求首先理解頻率統計失敗的地方。大多數人在聽到“概率”這個詞的時候,頻率統計是首先想到的統計類型。它涉及應用一些數學理論來分析事件發生的概率,明確地說,我們唯一計算的資料是先驗資料(prior data)。 假設我給了你一個骰子,問你擲出6點的機率是多少,大多數人都會說是六分之一。 但是,如果有人給你個特定的骰子總能擲出6個點呢?因為頻率分析僅僅考慮之前的資料,而給你作弊的骰子的因素並沒有被考慮進去。 貝葉斯統計確實考慮了這一點,我們可以通過貝葉斯法則來進行說明: 在方程中的概率P(H)基本上是我們的頻率分析,給定之前的關於事件發生概率的資料。方程中的P(E|H)稱為可能性,根據頻率分析得到的資訊,實質上是現象正確的概率。 例如,如果你要擲骰子100...

  3. 2023年2月23日 · 已有統計基礎概念卻還是選錯統計分析方式? 小如是一名數據分析師,主要負責分析數據,透過數據的結果,分析產品特性或產業概況等等。 而公司對統計的需求大多數使用無母數分析。 使得小如雖然在讀大學時,學習了非常多的統計方式,卻無法應用。 實務上只會用到卡方分析。 這使小如覺得很納悶,為什麼實務上與理論上的差距這麼的大?在學校學了一堆,但是可以用到的機會卻少之又少!? 然而,一方面因為小如在職場中,只專精於一兩種統計方式,漸漸失去對其他統計法的掌握度;另一方面,大學時期的課程,多半著重於理論的教學,對於各類型統計分析的應用情境本來就比較不熟悉跟瞭解。 在雙重未知的狀況下,小如感到非常焦慮,開始想要嘗試瞭解統計背後的原理,但是一遇到統計公式,又會雙手投降。

  4. 2013年1月8日 · 什麼是統計分析. 統計 ,顧名思義即將信息統括起來進行計算的意思它是對數據進行定量處理的理論與技術。. 統計分析,常指對收集到的有關數據資料進行整理歸類併進行解釋的過程。. 統計分析是 統計工作 中 統計設計 、資料收集、整理彙總、統計分析 ...

    • 眾數。一組資料中出現最多的變數即為眾數。比如一組資料:西瓜、西瓜、南瓜、西瓜、冬瓜、蘋果、蘋果,其眾數自然就是西瓜,在資料量比較大時可以藉助統計軟體進行計算,excel中函數為mode,python中暫時沒有實現眾數的函數,但可以曲線救國。
    • 均值。平均值這個大家都知道就是計算一組資料的平均值,瞭解這組資料的平均水平。在使用均值分析的過程中要注意,平均值非常容易受極值的影響,當資料集中出現極值時,呈現的平均水平結果就可能會出現不客觀的現象。
    • 中位數。將一組資料按照從小到大的順序排列時,最中間的資料就是中位數。當資料個數為奇數時,中位數即最中間的數,當資料個數為偶數時,中位數為中間兩個數的平均值。
    • 分位數。中位數從中間點將全部資料等分為兩部分。與中位數類似的還有四分位數、十分位數和百分位數等。它們分別是用3個點、9個點和99個點將資料4等分、10等分和100等分後各分位點上的值。
  5. 統計學 是在資料分析的基礎上研究測定收集整理歸納和分析反映數據資料以便給出正確訊息的科學。 這一門學科自17世紀中葉產生並逐步發展起來,它廣泛地應用在各門 學科 ,從 自然科學 、 社會科學 到 人文學科 ,甚至被用於 工商業 及 政府 的情報決策。 隨著 大數據 時代來臨,統計的面貌也逐漸改變,與資訊、計算等領域密切結合,是 數據科學 中的重要主軸之一。 譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為 敘述統計學 。 另外,觀察者以 數據 的形態,建立出一個用以解釋其 隨機性 和不確定性的 數學模型 ,以之來推論研究中的步驟及母體,這種用法被稱做 推論統計學 。 這兩種用法都可以被稱作為 應用統計學 。 數理統計學 則是討論背後的理論基礎的學科。

  6. 2019年4月4日 · 統計學是資料分析的基石。 學了統計學,你會發現很多時候的分析並不靠譜。 比如很多人都喜歡用平均數去分析一個事物的結果,但是這往往是粗糙的,不準確的。 如果學了統計學,那麼我們就能以更多更科學的角度看待資料。 大部分的資料分析,都會用到統計方面的以下知識,可以重點學習: 基本的統計量:均值、中位數、眾數、方差、標準差、百分位數等. 概率分佈:幾何分佈、二項分佈、泊松分佈、正態分佈等....