|
 |
承續前一期爬蟲原理的說明,在取得原始資料並完成正則化之後,仍有部分資料須進一步進行清整、篩選及處理。「資料清整」主要在完善遺失值、離異值及雜訊,並將資料型態標準化、歸整成可透過電腦進行運算的資料,以便後續的分析;課程中採用Python數據分析套件「Pandas」說明如何匯入資料、分組篩選等資料預處理(data pre-processing)。完成清整後的資料縱然較易於辨讀,但在數據總量相當龐大的情況下,恐難對數據資料的走向、分布、趨勢一望即知,需要仰賴視覺化加以輔助統計分析及直觀理解。課程中採用可快速生成、易於繪製、並得將圖表作成互動效果的Python資料視覺化開源模組「Plotly」進行資料視覺化實作。
|
 |
Python 資料清整:
Pandas安裝、資料匯入與欄位處理、格式套用(apply)、資料索引(loc 及 iloc)、資料分組(groupby)、資料篩選(filter)、 唯一值處理(unique)
賴祐全 助教
|
 |
Python 資料視覺化:
Plotly安裝與匯入、套件功能說明、 資料處理與視覺化套用、圖像設定(座標軸設定、連結設定、圖檔下載格式與檔案名稱設定、圖檔大小設定)
賴祐全 助教
|
 |
|
|