資料整理入門(上):認識你的資料格式
前言
本文寫給「非資訊相關科系出身/缺乏資料處理相關概念,但有以下需求」的人看:
你的組織手邊很多資料但有點亂,想要整頓這些資料,讓它變成有用的資訊、報表,且能依據不同需求重複利用,不需要每次重新整理資料。
例如,手邊有一堆訂單紀錄,想要每月自動產生報表、統計收入,同時能直接看出哪樣商品賣得好;或者有進貨資料,想自動計算、更新庫存;有客戶資料、客服記錄或客戶聯絡記錄,想隨時能追蹤到哪類客戶最多?客戶主要問題是什麼?
或者,你想在 Excel 或 Ragic 針對特定資料做樞紐分析或輸出成圖表,卻不確定要怎麼整頓資料、劃分儲存格、把哪些訊息要放在哪一格,才能跑得出你想要的結果,也不確定現在手上的「表格」,是以怎樣的邏輯架構的,是否需要經過格式轉換,才能進一步達到你要的效果。
那麼,你可以來看看這系列文章:因為以上情境,對應的問題多半是:「我的表格是什麼類型?該怎麼整理手邊的資料,以什麼格式存放,才能正確被電腦分析、利用、自動運作各種工作流程?」
對不會寫程式、沒有專業資料處理技能的人來說,要整理大批資料,最好用的方法,就是把它放進表格——特別是像 Excel、Google Sheet,或 Ragic (列表頁)這類試算表(Spreadsheet)的格式裡。像這樣:
透過表格的橫列、直欄,可以將資料較有結構的擺放,讓一般人就能篩選、排序、加總資料,甚至做更複雜的分析。市面上主打「沒資訊背景也能使用」的數據蒐集、資料管理工具,許多都是表格/表單/試算表軟體。
然而,並不是隨意把資料塞進表裡,這些資料管理工具就可以自動幫你分析一切。
Ragic 客服有時會遇到這樣的例子:使用者因為不清楚資料格式的差別,試圖將不符合格式的資料匯入 Ragic ,使得系統無法處理,或跑出跟使用者想像中完全不一樣的樣子;或者因為沒有以適合的方式排放資料,導致無法輸出報表或進一步分析。
對於資料應該以怎樣的格式放進表格(試算表/表單),不同的應用工具會各有不同的規定(例如 Ragic 的資料匯入格式說明在這裡),其中有些會與應用工具自家的格式有關,但也有一些,其實可說是整理資料的「共通原則」。本文主旨就是說明這些共通原則,以協助你將資料變成真正好用的表格。
本文分成上下兩篇,本篇為上篇,提供基礎說明,說明「表格」的基本元素,並介紹不同格式的表,以及這些表之間可能的關係。下篇則進一步說明:如何將表格/試算表資料整理成易於分析的格式?
本文定位為「新手介紹」,希望首先協助線上表單/表格不熟悉的朋友,釐清狀況,因此即使對很多讀者而言可能太簡單,這篇文還是儘量詳細說明並附帶實例。如果您本來就具備基礎知識,可利用小標題快速掃過內容;之後我們也會針對客戶設計 Ragic 資料庫時需要的資料架構概念,推出進階的說明文章。
想要快速知道怎樣的資料格式才能做「樞紐分析」,可直接點此跳轉到「二維表」的部分;想要將表單資料匯入到試算表,但不確定兩者區別的可以看「試算表」、「表單」這兩部分的說明。
表格的基本元素
表格是由水平、垂直格線組成的網格,其中一排垂直向下延展的方格稱為「欄」(Column),橫著向右延展的稱為「列」(Row),如下圖。
很多試算表會以英文字母命名「欄」(從左至右就會是 A 欄、 B 欄、 C 欄...),以數字命名「列」(從上至下就會是第 1 列、第 2 列、第 3 列...),每個方格(儲存格,Cell)就依其所屬的欄和列結合在一起來命名,例如上圖「王聰明」這個儲存格就是 B2 。(註:如果你的 Excel 不是長這樣而是直欄/橫列皆為數字,那是另一種 R1C1格式,有興趣的話可以參考這篇說明)
不同結構的「表」:「試算表」、「表單」等各有不同
同樣是以直欄、橫列組成的表,可以依據其置放資料的不同邏輯,分成不同的種類。例如下面要介紹的試算表、表單以及其他資料分析後產生的表格,如樞紐分析表,都各有不同。
「試算表」適合存放原始資料、讓電腦根據這些原始資料來分析出進一步的結果,一個頁面/工作表可以存放多筆資料,是多數資料分析工具的依據;「表單」適合當作輸入、編輯資料的介面,一個頁面存放一筆資料,可以讓一筆資料呈現更多細節,多個表單頁面輸入的結果可以彙整成試算表;而資料分析的成果,也可以整理成(非原始資料的)表格,像是樞紐分析表。
試算表(Spreadsheet)
「試算表」經常是原始資料存放、分析最好用的依據,Excel、Google Sheet、Numbers等軟體、以及 Ragic 的列表頁都長這樣。因為它「一筆資料一列」的格式,一個試算表的頁面可以存放多筆資料,讓人得以綜覽、分析資料。
當你使用線上表格/數據分析/資料管理工具時,如果有提供將xlsx檔、CSV檔匯入平台、或將整組資料匯出成xlsx檔、CSV檔匯出的功能,這些通常也是下面描述的試算表格式。
試算表資料放置的邏輯:第一列通常是描述資料的標頭,每列包含一樣數量的欄,每列中同一欄所記錄的資料值具備相同的屬性;相對的,同一列不同欄的資料性質就都不相同。
假設我們有一組「員工人事資料」要放在試算表裡,員工共有 6 位,每個員工資料都包含資料編號、姓名、所屬部門、職稱、公司電話、Email等 8 項內容。
我們會在試算表的第 1 列放入描述/定義其他列的資訊,稱為標頭/表頭(header row),像是A1--「資料編號」、B1--「員工名稱」、C1--「部門」等。
以標頭來描述的每一欄(column),叫做一個欄位(field),包含欄位標頭(field header)和欄位值(field value)這兩個元素,例如 B 欄就是「員工名稱」欄位,員工名稱這個欄位標頭會對應第 2 列之後的欄位值,包括 B2(王聰明)、B3(葉大雄)、B4...等。
試算表的每一列(row),代表一筆資料/記錄(record, entry),以上圖的例子來說,扣除欄位標頭共 6 列(第 2 列 到第 7 列,資料編號 E-00001 到 E-00006)。以這種邏輯整理、放置的一組資料,每一筆資料都能辨識為水平的一列,而同一個欄位(field)都在同個垂直軸線上,要篩選、排序、加總全部資料的欄位值都很便利。
表單(Form)
「表單」可以當作填寫資料的介面,想像填寫申請表格/網路問卷會看見的:一格「問題」,搭配一格要填入的「答案」,就是表單常見的樣子;紙本的報價單、請購單、出貨單等要 E 化,也是要轉化為線上表單的格式。
Google 表單、 Ragic 的表單頁、還有很多提供線上表單/線上問卷的服務等都是「表單」格式的例子。問卷題目或填寫提示就是表單的欄位標頭(Field header),對應要填入資料的地方就是欄位值,通常一個表單頁面涵蓋一筆資料,新增第二筆資料就要再開一個頁面。
因為表單適合輸入資料、試算表適合存放分析資料,兩者很適合互相搭配,很多表單服務都支援「從表單介面輸入資料,再將所有資料彙整、匯出成試算表」的功能,例如 Google 表單輸入的資料可以匯出成 Google 試算表,許多線上表格、問卷服務數據分析的後台也是以試算表格式呈現資料。
以 Ragic 來說,則是更進一步將表單/試算表放在同一個可以直接切換的介面(表單頁與列表頁)上。(Ragic 另外有在表單頁另外提供「子表格」的格式讓輸入介面也可以一次輸入多筆附屬資料,此部分若想了解可見這篇文章的說明。)
當表單與試算表這樣搭配時,每次填寫表單的一筆資料(一個頁面),將會變成試算表上的一行資料;表單的欄位標頭會是試算表的標頭,欄位值則會出現在後面對應的一列上。圖示如下:
因此表單上的一個頁面,就是一筆資料(entry, record),也就是試算表上的一列。從另一個角度來說,也可以說試算表一列資料的細節,可以展開、呈現在表單上。
「二維」表格/報表...
前面說到,試算表同一列包含的不同欄位,資料性質各不相同,但每一列同一欄都是一樣類型的資料。這種特性的表格,也叫做「一維表」,即表格資料的性質只用單一的維度(欄)來區分。
如果一個儲存格資料是由兩個維度一起決定的,就是二維表。舉例:把上面這張表拿來做「樞紐分析」,做出來的樞紐分析表如下,每個格子資料是由欄(商品)和列(月份)兩個維度一起決定的,這個樞紐分析表就是「二維表」。
原則上,一維表的數據要再加工、分析,會比二維表簡單得多,所以一般提到資料管理時,原始資料都是用一維表(試算表)來存放,二維表已是資料經過分析後的結果。簡言之:樞紐分析前:一維表,樞紐分析後:二維表。
因此,如果你手上有的是二維表,這個表格不一定適合直接匯入前述的表格管理工具,因為這不是系統接受的格式;也不適合把資料源頭保存成二維表,這樣之後要用其他方式分析不一定容易。
不過並不是說二維表就不能匯入像 Ragic 這樣的資料管理工具來使用,只要用一點小技巧將二維表轉換回一維表就可以了,最簡單的方法,就是用Excel的取消樞紐轉換來做。做完之後你原本的二維表就變成更適合多次處理的資料了。
而如果你手上有表格資料,想要知道能不能做樞紐分析,或無法做出樞紐分析,希望找出資料格式的問題。你可以依下列步驟一一檢視:
(1)這是一維表格嗎?如果它不是一維表,甚至已經是二維表,自然無法再做樞紐分析。
(2)格式是否整齊——有標頭列(欄位標題)嗎?有空白列或合併儲存格等不整齊的格式嗎?如果選取範圍有這些狀況的話也無法做樞紐分析,必須調整。此部分更細的說明可以
看下篇的詳細說明。
小結:
如果你手上有一些整理成表格的資料,想要進一步整理、分析,首先要知道這些資料放置的邏輯是試算表、表單、或其他表格(例如二維的樞紐分析表)。不同格式的資料無法直接混用,用途也各有不同,例如原始的數據資料最好是「試算表」格式,填寫用的資料格式可以是「表單」格式,「樞紐分析表」則已經是處理後的資料分析結果。
點這裡繼續閱讀下篇
來 IG 看本篇文章的「圖片解說版」