addr:TW:dataset 與 source 這兩個欄位,皆用於表示門牌的資料來源,其中 addr:TW:dataset 填入的是政府資料開放平臺的資料集識別碼(datasetId),source 則為各地方政府之名稱。以新北市為例:addr:TW:dataset=168887 指出資料源自於政府資料開放平臺資料集識別碼 168887 號資料集;source=新北市政府 則表示資料源自於新北市政府。這些資料確實由新北市政府提供,然而更精確地說,是新北市政府民政局,這點可從 https://data.gov.tw/dataset/168887 的「提供機關」一欄得知。由此可見,比起 source=新北市政府,addr:TW:dataset=168887 是更為精確的來源,當一個元素已有 addr:TW:dataset=168887 時,我們除了可得知其提供機關以外,還能瞭解到它的更新頻率、授權方式和上架日期和資料集名稱「新北市門牌位置數值資料」等詮釋資料,更重要的是:有了政府資料開放平臺的資料集識別碼,我們始能取得該資料集(試想,若僅憑 source=新北市政府,使用者就能找到該資料集的下載網址,那他可真有本事!)。
綜上所述,168887 與 新北市政府 皆在傳達資料的來源,而前者更為準確,因此,兩者應留其一,其一應為 168887。
然而,目前已匯入至 OpenStreetMap 的門牌,將政府資料開放平臺的資料集識別碼填於 addr:TW:dataset 欄位,這是十分奇怪、不合邏輯的一件事。以下為個人見解:
- 資料集識別碼就是資料來源,既然是來源,何不使用行之有年的
source 鍵?
- 綜觀其他冠有
addr: 的鍵,皆為組成地址的元素,例如郵遞區號、城市、鄉鎮、街道和門牌號碼等。資料集識別碼顯然不會被寫在信封上,因此不應屬於 addr: 群。
- 透過 Taginfo 查詢
addr: 可發現,全球僅臺灣以此方式表示資料集來源,且標籤狀態未經批准。
- 即便要用此格式表示資料集來源,也應是
addr:dataset_ref:tw 或 addr:dataset_ref=TW168887 而非 addr:TW:dataset,如此才保有在其他地區使用的彈性(其中,比照多語系名稱的命名空間,tw 應為「小寫」)。
基於以上理由(尤其是第二項),我建議:
- 逐步淘汰
addr:TW:dataset(考量到資料量龐大,此作業應低優先度分批進行,並儘量依附於其他門牌相關之編輯,如:3+3 郵遞區號)
- 刪除
source 欄中模稜兩可的地方政府名稱,改以資料集識別碼或資料集實際名稱代之。
至於 source 欄具體該如何填寫,可再討論,以下是幾種或許可行的方式:
| 方案 |
優點 |
缺點 |
備註 |
source=data-gov-tw/168887 |
xxx/xxx 模式已有先例1 |
可能須在 OpenStreetMap Wiki 撰寫相關文件,供使用者瞭解其涵義 |
其他來源亦為「政府資料開放平臺」的元素可統一使用此格式 |
source=https://data.gov.tw/dataset/168887 |
直接指出來源出處 |
網址有失效的風險、字元數較多 |
|
source=新北市門牌位置數值資料 |
一目了然、永久有效的來源值 |
無法直接取得資料 |
使用者藉由搜尋引擎,仍可檢索到資料集的存放處 |
歡迎大家集思廣義,探討更佳的標示方式。
addr:TW:dataset與source這兩個欄位,皆用於表示門牌的資料來源,其中addr:TW:dataset填入的是政府資料開放平臺的資料集識別碼(datasetId),source則為各地方政府之名稱。以新北市為例:addr:TW:dataset=168887指出資料源自於政府資料開放平臺資料集識別碼 168887 號資料集;source=新北市政府則表示資料源自於新北市政府。這些資料確實由新北市政府提供,然而更精確地說,是新北市政府民政局,這點可從 https://data.gov.tw/dataset/168887 的「提供機關」一欄得知。由此可見,比起source=新北市政府,addr:TW:dataset=168887是更為精確的來源,當一個元素已有addr:TW:dataset=168887時,我們除了可得知其提供機關以外,還能瞭解到它的更新頻率、授權方式和上架日期和資料集名稱「新北市門牌位置數值資料」等詮釋資料,更重要的是:有了政府資料開放平臺的資料集識別碼,我們始能取得該資料集(試想,若僅憑source=新北市政府,使用者就能找到該資料集的下載網址,那他可真有本事!)。綜上所述,
168887與新北市政府皆在傳達資料的來源,而前者更為準確,因此,兩者應留其一,其一應為168887。然而,目前已匯入至 OpenStreetMap 的門牌,將政府資料開放平臺的資料集識別碼填於
addr:TW:dataset欄位,這是十分奇怪、不合邏輯的一件事。以下為個人見解:source鍵?addr:的鍵,皆為組成地址的元素,例如郵遞區號、城市、鄉鎮、街道和門牌號碼等。資料集識別碼顯然不會被寫在信封上,因此不應屬於addr:群。addr:可發現,全球僅臺灣以此方式表示資料集來源,且標籤狀態未經批准。addr:dataset_ref:tw或addr:dataset_ref=TW168887而非addr:TW:dataset,如此才保有在其他地區使用的彈性(其中,比照多語系名稱的命名空間,tw應為「小寫」)。基於以上理由(尤其是第二項),我建議:
addr:TW:dataset(考量到資料量龐大,此作業應低優先度分批進行,並儘量依附於其他門牌相關之編輯,如:3+3 郵遞區號)source欄中模稜兩可的地方政府名稱,改以資料集識別碼或資料集實際名稱代之。至於
source欄具體該如何填寫,可再討論,以下是幾種或許可行的方式:source=data-gov-tw/168887xxx/xxx模式已有先例1source=https://data.gov.tw/dataset/168887source=新北市門牌位置數值資料歡迎大家集思廣義,探討更佳的標示方式。
Footnotes
例如
microsoft/BuildingFootprints、YahooJapan/ALPSMAP↩