Upgrade to Pro — share decks privately, control downloads, hide ads and more …

本当にあったコードの話 ~バッドオープンデータ供養寺

 本当にあったコードの話 ~バッドオープンデータ供養寺

Code for Japan Summit2020にて、『本当にあったコードの話』と題して、オープンデータを利用していると散見される、データの表記ゆれ(今回はhttpプロトコルの表記ゆれ)と、IDを利用していて困る話について発表してきました。

[動画] Code for Japan Summit 2020 「BADオープンデータ供養寺 〜本当にあったデータの怖い話〜」
https://youtu.be/PaTPh8rh-xE?t=4252

高木祐介

November 28, 2020
Tweet

More Decks by 高木祐介

Other Decks in Technology

Transcript

  1. プロトコルのこの中から救えるデータを探す ・全角のデータ http:// ・・・ 全角 → 半角化 ・プロトコルの文字が多い hhttp:// ・・・

    hが多い → hを1つに変換する htttp:// ・・・ tが多い → tを2つに変換する httpp:// ・・・ pが多い → pを1つに変換する http::// ・・・ :が多い → :を1つに変換する http:/// ・・・ /が多い → /を1つに変換する 実例) hhttp://www.city.asahikawa.hokkaido.jp/hospital/index
  2. プロトコルのこの中から救えるデータを探す ・プロトコルの文字が少ない ttp:// ・・・ hがない → hを1つに変換する htp:// ・・・ tが1文字少ない

    → tを2つに変換する htt:// ・・・ pがない → pを1つ追加する http// ・・・ :がない → :を1つ追加する http:/ ・・・ /が1つすくない → /を2つに変換する http: ・・・ /がない → /を2つに変換する 実例) http//www.mikami-dc.012372.com
  3. 介護事業所番号は、ウェイト 2・1分割方式で検査するこ とになっている。 1つ目の怖い話、介護事業所番号の場合 チェックデジットとは手入力ミス をなくすために、入力したデータ が正しいか確認する為につける番 号で、人力での誤入力防止用途に 使われる。 例

    123 という3桁コードの最後にチェッ クデジットを付けるとして、3桁 を足して10で割った余りをチェッ クデジットとすれば 1236 となる。 1、2、3どこかで誤入力すれば、 6の計算が合わなくなる為、入力 ミスを検知できる。
  4. 公開されているコードが誤っている 施設A ・・・ コードAAAA 施設B ・・・ コードBBBB 記入ミスにより、施設単位に振られているコード が誤っている。翌月の公開上より修正された。 そもそもデータがない事だけじゃなく、

    存在するデータに対して誤ったデータがあること にも気を付ける必要がある。 施設A ・・・ コードBBBB 施設B ・・・ コードAAAA 逆転しているコ ード付与された データが見つか る。