三分鐘了解機器學習的四個學習方式

大數據的應用毫無疑問地是未來科技發展重要的一環。但要發揮資料的價值就不能忽略機器學習以及人工智慧。若要簡單解釋這三者的關係:大數據為材料、機器學習是處理方法,而人工智慧就是呈現出的結果。「機器學習」(Machine Learning)即讓機器(電腦)像人類一樣具有學習的能力。透過資料的訓練,現今機器學習已經廣泛的運用在生活裡,例如,自動駕駛汽車和自動化大眾運輸、簡化物流及配送方式、改善老年照護等等,將會使我們的生活越來越便利。

機器學習和人類學習的方式十分相似,要讓機器(電腦)像人類一樣具有學習能力的話,通常都會先進行「分類」(Classification),才能分析理解、進行判斷,最後才能採取行動。機器學習的種類最主要分成四種:監督式學習(Supervised learning)、非監督式學習(Un-supervised learning)、半監督式學習(Semi-supervised learning)及強化學習(Reinforcement learning)。

  1. 監督式學習(Supervised learning)所有資料都被「標註」(label),告訴機器相對應的值,以提供機器學習在輸出時判斷誤差使用。這種方法為人工分類,對電腦來說最簡單,對人類來說最辛苦。這種方法像是告訴機器(電腦)標準答案,正式考試的時候機器依照標準答案作答,正確性會比較高。例如,若要訓練機器區分大象和長頸鹿,則提供機器 100 張大象和長頸鹿的照片。機器依照標註的照片去偵測大象和長頸鹿的特徵,依照特徵就能辨識出大象和長頸鹿並進行預測。
  2. 非監督式學習(Un-supervised learning):所有資料都沒有標註,機器透過尋找資料的特徵,自己進行分類。此種方法不用人工進行分類,對人類來說最簡單,但對電腦來說最辛苦,誤差較大。若使用非監督式學習辨識大象及長頸鹿,機器得自行判斷提供的 100 張照片裡有哪些特徵的是大象、哪些特徵的是長頸鹿並同時進行分類。在未來預測時,利用機器自行所分類的特徵去辨識是哪一種動物。但機器所辨識的結果不一定正確。
  3. 半監督式學習(Semi-supervised learning):對少部分資料進行「標註」,電腦只要透過有標註的資料找出特徵並對其它的資料進行分類。這種方法可以讓預測時比較精準,是目前最常用的一種方式。若有 100 張照片,則標註其中 10 張哪些是大象哪些是長頸鹿。機器透過這 10 張照片的特徵去辨識及分類剩餘的照片。因為已經有辨識的依據,所以預測出來的結果通常比非監督式學習準確。
  4. 強化式學習(Reinforcement learning):機器透過每一次與環境互動來學習,以取得最大化的預期利益。運用強化式學習的方式,我們不標註任何資料,但告訴它所採取的哪一步是正確、那一步是錯誤的,根據反饋的好壞,機器自行逐步修正、最終得到正確的結果。能使非監督式學習達成一定程度的正確性,就不能缺少強化式學習的方式。若機器自行辨識特徵與分類,將某張大象的照片預測成長頸鹿,則人類給予錯誤的訊息。機器會再次辨認特徵及分類。透過一次一次正確與錯誤的學習,最後的預測經會越來越精準。

以上介紹的四個種類,監督式學習是最準確的但卻也是耗費最多人力成本的。但如果想在有限的人力成本之下掌握高準確度怎麼辦呢?有鑑於此, Amazon 提出了 Amazon SageMaker Ground Truth,透過建構高準確度的資料集來減少添加標註所造成的人力成本。完整的教學可以參考以下這篇部落格,讓您透過實驗輕輕鬆鬆了解 SageMaker 的功能:SageMaker Ground Truth 建立高度精確資料集

machine-learning

參考資源:

  1. 15 Ways Machine Learning Will Impact Your Everyday Life
  2. Types of Machine Learning Algorithms You Should Know
  3. Overview Talk: 從大數據走向人工智慧
  4. 翻轉人類未來的 AI 科技:機器學習與深度學習
2019-03-29T16:44:09+00:00 2019/03/28 |大數據|