Yahoo奇摩 網頁搜尋

搜尋結果

  1. 2020年7月2日 · 創新之前,你問對問題了嗎?. 淺談數據與元問題. 試想你正在規劃新的產品功能,會從哪裡開始呢?. 競品分析?. 啊對~知己知彼嘛!. 還能順便 ...

  2. 2018年6月17日 · 《孫子兵法》是中國最著名的軍事著作,我雖已久聞其名,卻一直沒什麼機緣研究這個號稱史上最強的上古兵書。 直到之前在書店看見一本《華杉講透孫子兵法》,覺得內容寫得很有意思,便買下來帶回部隊裡看,用它打發退伍前的最後幾個禮拜。 以前我對《孫子兵法》的內容可以說近乎一無所知,甚至曾以為它是一本打仗時拿在手邊查閱戰術的工具書。...

  3. 2023年1月29日 · Cheryl. ·. Follow. 7 min read. ·. Jan 29, 2023. 紀錄與整理迴歸模型表現評估方式 part.1. 1. 調整後 R 平方. 變異量 ( variance ) 代表一組數據中各值與其平均的分散程度 ¹ 。 國立交通大學。 一點y值至依變數平均=迴歸至依變數平均+一點至迴歸。 總變異量 (總平方和) = 迴歸解釋變異量...

    • 前言
    • 二分類模型的評估指標
    • 過採樣方法 : Synthesized Minority Oversampling Technique
    • 欠採樣方法 : Edited Nearest Neighbor
    • 結尾 : 不平衡數據集分類建模流程

    工作使人衰老...好久沒寫文章了,這次趁案子輪替的空閒補上一篇! 我們知道,在數據科學的領域中一個很重要的環節就是分類建模,舉凡簡單的邏輯回歸,到更複雜的隨機森林、深度學習方法等。然而,真實世界的資料常常遇到不可控的問題,使得建模效果急速下降,一個很常見的例子就是數據不平衡的問題,少數樣本與多數樣本常有很大的落差,舉例而言,廣發簡訊詢問消費者願不願意購買某項產品,可能測試了數萬人至數十萬人的規模,卻僅有不到一千人回覆願意,此時的建模效果就會變得極差,當然我們可以透過更加集成學習、深度網絡的方法去強硬地提升準確度,但相對地必須承擔過擬合的風險,如下圖,假設我有一筆資料集長得像這樣 : 上面展示了一個不平衡數據集,其中只有 0.8% 是正樣本。假設我們硬是要建模,決策邊界就會長得很可怕 (這邊我...

    首先我們從評估指標開始,一般來說準確度是一個直覺性最高的指標,但如上一小節提到的問題,單純看準確度沒辦法精準衡量模型是好是壞,因此這裡介紹幾種更常見的評估方式 : 【混淆矩陣 Confusion Matrix】 我們如果將上一小節二分類問題的結果,用這樣的方式來看 : 這樣的方法叫做混淆矩陣,這也是為甚麼我們說不要透過準確率來判斷模型好壞的原因,上面的結果準確率達到驚人的 47700 / (47700+398) = 99.2% ,乍看之下似乎不錯,然而如上圖所示,正樣本的正確分類率是 0%,意味著模型根本沒辦法辨別出正樣本的存在。 這樣的表示方式分成四大塊 : 1. True Positive 真陽性 : 實際上是正樣本且被預測為正樣本 2. True Negative 真陰性 : 實際上是...

    最先出現在我們思路的想法是,怎麼樣把少數樣本變多 ? 這個做法我們稱之為過採樣,常見的做法有幾種,把少數樣本重複抽樣出來、用某種分布的方式去抽取樣本,或是用人工手段合成一些樣本。 最簡單的作法當然就是直接複製一些少數樣本,或是根據少數樣本的某種分布去採樣某些樣本,根據樣本的採樣可以看我之前寫的系列一 : * 還欠著沒寫完,之後補上蒙地卡羅的部分 這樣的好處當然就是簡單、好懂,但壞處也很明顯,就是容易過擬合,你可以想像盡管模型分數表現再好,終究只是根據同一組樣本的訊息去學習,如果今天出現了一些跟少數樣本很接近,但又不完全符合少數樣本特徵的資料點,模型很可能就會失效了。 【SMOTE 方法 : 合成少數過採樣方法】 我們引進了新的方法叫做 SMOTE 方法,這是 2002 年提出的一篇論文,主要...

    相對於過採樣,欠採樣是將多數樣本進行 Scale Down,使得模型的加權權重改變,少考慮一些多數樣本,這張圖很好地展示了兩種方法的差異 : 同樣,最簡單的做法就是隨機排除掉一些多數樣本,但不推薦的原因是有可能誤排除掉邊界樣本,使得模型鑑別度雖然上升,卻大量增加過擬合風險,因為邊界沒有鑑別度的少數樣本也被模型考慮進來,為了盡可能解決這個問題,這邊介紹兩種方法 : 【Tomek Link】 Tomek Link 算法會針對所有樣本去遍歷一次,假設今天有兩個樣本點 x, y分屬不同的 class,也就是一個為多數樣本一個為少數樣本,我們可以去計算它們之間的距離 d(x, y) 。 此時如果我們找不到第三個樣本點 z,使得任一樣本點到 z 的距離比樣本點之間的距離還小的話,我們就稱為 Tomek ...

    最後,我總結了一下不平衡數據分類的建模流程 : 有幾個值得注意的點 : 1. 應該先切分測試、訓練集,再針對訓練集去過採樣或欠採樣,這是因為重新採樣的目標是要讓模型產生鑑別度,而不是讓模型學習到錯誤的樣本,如果你先採樣再去切分,很有可能你的測試集以及偏離了原本的資料樣貌,導致該模型學習到一堆雜訊 2. 要透過交叉驗證去控制過擬合,原因在於不管用哪種採樣方式,幾乎都會增大過擬合程度,尤其是在樣本數少,又做欠採樣的情況下,可能模型雖然區分出來了,但是因為欠採樣後多數樣本過少等等問題,造成模型只側重學習某部分的樣本,無法反映全局情況,此時交叉驗證甚至建立多個模型去做集成都會是好的方式 3. 觀察少數樣本與多數樣本分布情形,本文舉的例子是因為少數樣本與多數樣本看上去還能分離,實際運行很有可能碰到完全...

  4. 2019年4月25日 · 17 min read. ·. Apr 25, 2019. -- #2021/04/13更新OpenCV的DNN模組使用,在使用Intel CPU的情況下,可直接載入透過darknet, PyTorch, TensorFlow, ONNX......等framework訓練好的模型,並使用CPU進行Inference....

  5. 2019年3月13日 · 1. 時至今日,顯然是一個「資訊大爆炸」的時代,伴隨科技的日新月異,「人工智慧」應運而生,為我們出謀劃策,更可以處理生活的疑難雜症。 然而老師在課堂上討論到「人工智能」無邊際超越發展,反而成為一種偌大的壓力,人類有可能在未來就無法駕馭,甚至假想成機器人戰勝人類,機器人跟人一樣都能擁有投票權? 「人工智慧」在上課中聽到,深深吸引了我的注意,這是個非常值得探討的問題。 Al時代,人類將如何變革?...

  6. 2021年3月7日 · 加強磚造優點. 上敘先了解了一下加強磚造,除了銀行貸款以及要拆掉隔間裝潢外,也不是完全沒有優點可尋,主要結構還是鋼筋混凝土,只有隔間牆是磚造,防火會比輕隔間或是木板隔間好很多,隔音也相對好,加強磚造造價比較便宜,施工期間會較快 ...

  1. 其他人也搜尋了