資策會「網路爬蟲與巨量資料流處理實務班」(台北2/4)
本課程教導學員能透過開源Library從網站、社群媒體、裝置獲取資訊,並能將非結構化資料轉換為結構化資料,交由Kafka訊息管理系統做統一管理,接著利用Spark Streaming進行大數據流的即時運算,並將結果予以應用。課程設計能使學員親身體驗資料串流的處理,並能從體驗中遭遇的問題,學習更多解決方案,加倍學習之效果。
  資策會「網路爬蟲與巨量資料流處理實務班」將於2017年2月4日開辦,相關資訊請參閱課程網頁,或電(02)6631-6533,黃小姐。

課程大綱:
1.課程環境準備:課程VM環境準備與設定

2.資料流獲取
2.1 網頁爬蟲實戰技術
2.2 網頁結構化解析技術
2.3 社群媒體資料擷取技術(Facebook、Ptt、Mobile01等實作)
2.4 Socket 資料流獲取技術(網路層基礎Socket Server實作)

3.Spark 技術回顧:Spark Batch處理技術

4.Kafka與Spark Streaming技術實作
4.1 Spark Streaming DStream 方法介紹與實作
4.2 Kafka 訊息管理系統介紹與實作
4.3 Spark Streaming資料流與Kafka介接技術

5.綜合實戰練習
5.1 開源中文斷詞Library使用
5.2 PTT八卦版即時關鍵字訊息流獲取系統實作

詳細內容請參考課程網址:http://www.iiiedu.org.tw/ites/NBS.htm


文章回應

目前尚無回應,成為第一個回應的人吧!

回應本篇文章! (以下回應不會連結到FaceBook)(言責自負,請勿涉及人身攻擊,以免挨告!)

尚未 登入會員 ,無法回應!

gotop