知識分享

貝果選修課 — 什麼是機器學習(一)

By 2019年9月5日 No Comments

編按:機器學習(Machine Learning)是資料科學家在進行大數據分析時,其中一種資料科學基礎技術。行動貝果將用最淺顯易懂的方式,每週花五分鐘跟你聊聊機器學習的基礎知識。

什麼是機器學習

機器學習就是透過寫程式,訓練電腦學會找出大筆資料中隨機變數 X 與 Y 之間關係的技術。用數學來解釋,即為給定⽬標函數與訓練資料,學習出能讓⽬標函數最佳(預測與實際誤差最小)的模型參數。

簡單來說,就是「讓電腦學會從大筆資料中自動找尋規律與趨勢,⽽不需要給定特殊規則。」

傳統統計分析 vs. 現代機器學習

過去,使用傳統機器學習實現人工智慧的方式,需要人類將分類規則手動嵌入到系統中。也就是需要工程師將所有資料特徵以窮舉法的方式,詳細地手動輸入所有可能的條件。
例如:長頸鹿有很長長的脖子、尖尖的耳朵、纖細的四肢和一條長尾巴。

而機器學習 (Machine Learning),則是讓電腦能夠自行從歷史資料中學會一套分類運算的規則,並能自己逐步精進該項技能。

機器學習的組成及應⽤
  • 監督式學習
    監督式學習的使用時機:是在已知預測標的的情況下,探勘出資料內的既有模式。目的為使用現有資料的分析對未來情境做出目標預測。例如,圖像分類、詐騙偵測
  • 非監督式學習
    非監督式學習使用時機:是在沒有既定的預測標的或是預測答案的情境下使用。其目的為找出大量資料中的隱藏結構。例如,顧客分群,資料異常檢測
  • 增強式學習
    增強式學習:是指自動化且電腦能自主學習的一種 AI 技術。其目的為透過反覆試驗的自動化訓練方式以達到最佳化模型的效果。例如,下圍棋、打電玩
機器學習當前的應用

在處理大數據分析及解決商業問題的領域裡,以結果來看,許多題⽬中機器學習的最終表現都不遜於⼈類一步一步的手動分析。

但是,高準確率的預測模型通常需要非常⼤量的資料才能夠產出精準的預測結果。所以在普遍的情況下,資料量體本身的大小大多直接與精準預測率成正比。
值得一提的是,以目前機器學習發展的程度,針對資料重複性⾼、⽬標明確的問題,機器學習多半都能運算出一定程度的準確性。

Leave a Reply

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料