Skip to content

淘汰 addr:TW:dataset 欄位並改善 source 值 #2

@Lzmxya

Description

@Lzmxya

addr:TW:datasetsource 這兩個欄位,皆用於表示門牌的資料來源,其中 addr:TW:dataset 填入的是政府資料開放平臺資料集識別碼(datasetId)source 則為各地方政府之名稱。以新北市為例:addr:TW:dataset=168887 指出資料源自於政府資料開放平臺資料集識別碼 168887 號資料集;source=新北市政府 則表示資料源自於新北市政府。這些資料確實由新北市政府提供,然而更精確地說,是新北市政府民政局,這點可從 https://data.gov.tw/dataset/168887 的「提供機關」一欄得知。由此可見,比起 source=新北市政府addr:TW:dataset=168887 是更為精確的來源,當一個元素已有 addr:TW:dataset=168887 時,我們除了可得知其提供機關以外,還能瞭解到它的更新頻率、授權方式和上架日期和資料集名稱「新北市門牌位置數值資料」等詮釋資料,更重要的是:有了政府資料開放平臺的資料集識別碼,我們始能取得該資料集(試想,若僅憑 source=新北市政府,使用者就能找到該資料集的下載網址,那他可真有本事!)。

綜上所述,168887新北市政府 皆在傳達資料的來源,而前者更為準確,因此,兩者應留其一,其一應為 168887

然而,目前已匯入至 OpenStreetMap 的門牌,將政府資料開放平臺的資料集識別碼填於 addr:TW:dataset 欄位,這是十分奇怪、不合邏輯的一件事。以下為個人見解:

  1. 資料集識別碼就是資料來源,既然是來源,何不使用行之有年的 source
  2. 綜觀其他冠有 addr: 的鍵,皆為組成地址的元素,例如郵遞區號、城市、鄉鎮、街道和門牌號碼等。資料集識別碼顯然不會被寫在信封上,因此不應屬於 addr: 群。
  3. 透過 Taginfo 查詢 addr: 可發現,全球僅臺灣以此方式表示資料集來源,且標籤狀態未經批准。
  4. 即便要用此格式表示資料集來源,也應是 addr:dataset_ref:twaddr:dataset_ref=TW168887 而非 addr:TW:dataset,如此才保有在其他地區使用的彈性(其中,比照多語系名稱的命名空間,tw 應為「小寫」)。

基於以上理由(尤其是第二項),我建議:

  1. 逐步淘汰 addr:TW:dataset(考量到資料量龐大,此作業應低優先度分批進行,並儘量依附於其他門牌相關之編輯,如:3+3 郵遞區號)
  2. 刪除 source 欄中模稜兩可的地方政府名稱,改以資料集識別碼資料集實際名稱代之。

至於 source 欄具體該如何填寫,可再討論,以下是幾種或許可行的方式:

方案 優點 缺點 備註
source=data-gov-tw/168887 xxx/xxx 模式已有先例1 可能須在 OpenStreetMap Wiki 撰寫相關文件,供使用者瞭解其涵義 其他來源亦為「政府資料開放平臺」的元素可統一使用此格式
source=https://data.gov.tw/dataset/168887 直接指出來源出處 網址有失效的風險、字元數較多
source=新北市門牌位置數值資料 一目了然、永久有效的來源值 無法直接取得資料 使用者藉由搜尋引擎,仍可檢索到資料集的存放處

歡迎大家集思廣義,探討更佳的標示方式。

Footnotes

  1. 例如 microsoft/BuildingFootprintsYahooJapan/ALPSMAP

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions