資策會「網路爬蟲與巨量資料流處理實務班」(台北2/4)

本課程教導學員能透過開源Library從網站、社群媒體、裝置獲取資訊，並能將非結構化資料轉換為結構化資料，交由Kafka訊息管理系統做統一管理，接著利用Spark Streaming進行大數據流的即時運算，並將結果予以應用。課程設計能使學員親身體驗資料串流的處理，並能從體驗中遭遇的問題，學習更多解決方案，加倍學習之效果。
　　資策會「網路爬蟲與巨量資料流處理實務班」將於2017年2月4日開辦，相關資訊請參閱課程網頁，或電(02)6631-6533，黃小姐。

課程大綱：
1.課程環境準備：課程VM環境準備與設定

2.資料流獲取
2.1 網頁爬蟲實戰技術
2.2 網頁結構化解析技術
2.3 社群媒體資料擷取技術(Facebook、Ptt、Mobile01等實作)
2.4 Socket 資料流獲取技術(網路層基礎Socket Server實作)

3.Spark 技術回顧：Spark Batch處理技術

4.Kafka與Spark Streaming技術實作
4.1 Spark Streaming DStream 方法介紹與實作
4.2 Kafka 訊息管理系統介紹與實作
4.3 Spark Streaming資料流與Kafka介接技術

5.綜合實戰練習
5.1 開源中文斷詞Library使用
5.2 PTT八卦版即時關鍵字訊息流獲取系統實作

詳細內容請參考課程網址：http://www.iiiedu.org.tw/ites/NBS.htm

文章回應