貝果選修課 — 什麼是機器學習?

what-is-ml

機器學習(Machine Learning)是資料科學家在進行大數據分析時,其中一種資料科學基礎技術。行動貝果將用最淺顯易懂的方式,花五分鐘跟你聊聊機器學習的基礎知識。

什麼是機器學習

機器學習就是透過寫程式,訓練電腦學會找出大筆資料中隨機變數 X 與 Y 之間關係的技術。用數學來解釋,即為給定⽬標函數與訓練資料,學習出能讓⽬標函數最佳(預測與實際誤差最小)的模型參數。

根據麻省理工學院的史隆商學院( MIT Sloan ) 的研究調查,總計 168 家市值高於 500 萬美金的大型跨國企業,約有 76% 的高階主管已經利用 AI( Artificial Intelligence,人工智慧)技術替公司創造翻倍的銷售成果,且超過一半的企業,在行銷業務上都已經順利導入機器學習這項技術。 不只如此,機器學習除了可應用在行銷業務上,也能應用在公司的其他部門。各大產業也正積極地將 AI 導入公司應用,利用 AI 的特性優化企業營運、降低成本、與提升績效及產值。 的確,在這個資訊數位化的時代,AI 已經不只是個電影場景或是只在高端軟體科技業裡的技術,而是一個已經融入我們生活的技術,例如:線上購物平台上的智慧化廣告、Netflix 的電影推薦、以及 3C 用品的 AI 助理像 Apple 的 Siri 與 Google 的 Google assistant。

簡單來說,就是「讓電腦學會從大筆資料中自動找尋規律與趨勢,⽽不需要給定特殊規則。」

那麼「人工智慧」又是什麼呢?與「機器學習」又有什麼關係?

AI 人工智慧,指的是使用電腦來執⾏以往需要人類⼤腦才能完成的任務與決策。AI ⼈⼯智慧是結合科技與實際應⽤,已達到可模擬人類智能的⼀種軟體科技。而隨著硬體儲存成本下降、運算能力增強,加上大量數據,今日的人工智慧發展出目前資料科學的最熱門技術「機器學習」。

機器學習,是一種透過歷史資料和經驗中學習並找到運行邏輯,最後達到人工智慧的方法。機器學習不是用特定規則來執行,而是藉由自主學習的演算法來處理⼤量且複雜的資訊,能夠達到比人腦更快速地處理重複性的運算工作,並可以根據不同情況做出適應性的調整。

總結來說,人工智慧是一個很大的領域,希望機器能夠做到人類能做的事情,都會是人工智慧的範圍,機器學習則是實踐人工智慧其中的一個方法,是一種不提供詳細的運算規則,⽽是訓練機器本⾝去⾃我練習發掘學習規則的 AI 技術。

傳統統計分析 vs. 現代機器學習

過去,使用傳統機器學習實現人工智慧的方式,需要人類將分類規則手動嵌入到系統中。也就是需要工程師將所有資料特徵以窮舉法的方式,詳細地手動輸入所有可能的條件。
例如:長頸鹿有很長長的脖子、尖尖的耳朵、纖細的四肢和一條長尾巴。

而機器學習 (Machine Learning),則是讓電腦能夠自行從歷史資料中學會一套分類運算的規則,並能自己逐步精進該項技能。

機器學習的組成及應⽤

  • 監督式學習
    監督式學習的使用時機:是在已知預測標的的情況下,探勘出資料內的既有模式。目的為使用現有資料的分析對未來情境做出目標預測。例如,圖像分類、詐騙偵測
  • 非監督式學習
    非監督式學習使用時機:是在沒有既定的預測標的或是預測答案的情境下使用。其目的為找出大量資料中的隱藏結構。例如,顧客分群,資料異常檢測
  • 增強式學習
    增強式學習:是指自動化且電腦能自主學習的一種 AI 技術。其目的為透過反覆試驗的自動化訓練方式以達到最佳化模型的效果。例如,下圍棋、打電玩

機器學習當前的應用

在處理大數據分析及解決商業問題的領域裡,以結果來看,許多題⽬中機器學習的最終表現都不遜於⼈類一步一步的手動分析。

但是,高準確率的預測模型通常需要非常⼤量的資料才能夠產出精準的預測結果。所以在普遍的情況下,資料量體本身的大小大多直接與精準預測率成正比。
值得一提的是,以目前機器學習發展的程度,針對資料重複性⾼、⽬標明確的問題,機器學習多半都能運算出一定程度的準確性。

⾃動化機器學習 AutoML 是什麼?

how-decanter-learn-data

傳統機器學習在流程上⾼度地依賴資料科學家使⽤程式語⾔ Python 或 R,⾃⾏開發出機器學習模型。並且資料科學家必須得熟悉各種不同機器學習演算法的機制,才能夠⼿動優化資料運算模型。因此,資料科學家必須具備非常廣泛的機器學習知識以及程式開發技能才能執⾏資料分析⼯作。

不同的資料庫與預測標的,皆需要不同程度的資料前處理、特徵⼯程、演算法選取以及模型評估才能順利完成⼀整套資料分析的流程。其中每個步驟都需要資料科學家⼿動反覆測試及調整參數設定,因此使⽤傳統機器學習流程是非常的繁瑣且曠⽇費時。通常⼀個傳統機器學習專案,⾄少需要 3~6 個⽉才能完成。

⾃動化機器學習(AutoML )是⼀種將傳統機器學習流程完全⾃動化的最新技術,使⽤⾃動模型迭代⽅式來取代傳統機器學習中原本需要⼿動且⾼度重複性的⼯作。使⽤⾃動化機器學習,資料清洗、特徵處理、建立模型、以及模型效能評估等步驟都將由電腦⾃動化完成,進⽽⼤幅度地降低資料分析專案所需的時間及成本。

⾃動化機器學習可以解決⽬前⼀般企業在⼤數據分析⼯作上的困境,因為其⼤幅度降低了企業導入 AI 技術的⾨檻及成本,讓那些沒有專業資料科學團隊的企業也能輕鬆建立同樣準確的預測模型,讓所有想做數據分析的企業都能輕易利⽤ AI 科技來分析⼤數據,對未來作出預測,並輔助重⼤商業決策。 現今企業對於資深資料科學家的需求與⽇俱增,但具有精準分析能⼒與廣泛知識的資料科學家卻是⽬前數位化時代最稀缺的⼈才。值得慶幸的是,⾃動化機器學習正好提供企業這個⼈才需求的困境,讓企業可以在更短的時間內完成更多的資料分析專案並輔助企業⾼層作出⾼效益的商業決策。

而 Decanter AI 就是一個基於「簡單易用、快速運算、容易上手」的原則所設計的⾃動化機器學習解決方案,提供真正的「一鍵資料匯入、模型輸出」功能,只要一個按鈕即可賦予資料科學家與商業分析師最尖端的機器學習技術。直觀的使用者介面,使用者不需要學習全部的程式語言或是機器學習演算法,就能利用企業數據產出有用的商業預測洞見。