HER-SYSデータ 利活用推進手法の提案

 新型コロナウイルス感染者等情報把握・管理支援システム HER-SYS(ハーシス) とは、保健所等の業務負担軽減及び関係機関の情報共有・把握の迅速化を図ることを目的として、厚生労働省により開発された、ネットワーク・データベース・システムです。
 HER-SYSには、医療機関が患者診断時に届出を行う「発生届」のデータをはじめ、保健所が行う「積極的疫学調査」のデータや、 患者本人が My HER-SYS(マイ ハーシス) のシステムを利用して入力する「健康観察」データ等、COVID-19の感染者情報に関するあらゆるデータが入力されます。
 本稿を記述している2022年8月末現在において、新型コロナウイルス感染症はまだ「全数調査」の対象とされており、HER-SYSデータベースには、 システムの運用が始まった2020年5月以降の大量のデータが蓄積されています。 (※ 間もなく全数調査の対象からは外されるとされていますが、これまでに蓄積したデータの価値が下がるものではありません。)
 もしHER-SYSのデータを一般の方が取得することが可能であれば、多くの研究者やデータ・サイエンティストにより詳細に分析され、 我が国全体の感染症動向に関する研究が大きく進展することは間違いありません。 しかしながらHER-SYSデータは個人情報であり、中でも秘匿性の非常に高い個人情報(要配慮個人情報)でもあることから、現在、統計を作成する行政機関及び国立感染症研究所などの一部の公的研究機関でしか利用することができません。
 わが国では2020年初旬以降、COVID-19の感染拡大とそれに伴う社会生活の制限により、社会全体が大きな打撃を受け現在もその状況が続いております。 この状況を打開するための最も適切な政策を国民全体で考え実行していくための鍵は、私はこのHER-SYSのデータにあると考えます。 行政内部と一部の専門家のみで感染症政策を検討するには限界があります。今こそ全国民の英知を結集して対策を練るべきであり、 そのためにはHER-SYSデータの一般利用が必要です。
 私はHER-SYSのデータの一般利用の開放、そして将来的にはオープンデータとしての公開を、以下の手法により行うことを提案します。

1 HER-SYSデータに匿名加工処理を行い、匿名加工情報を作成する

 匿名加工情報とは、特定の個人を識別することができないように個人情報を加工し、当該個人情報を復元できないようにした情報のことをいいます。

(参考1)匿名加工情報(個人情報保護委員会ウェブサイト)
(参考2)行政機関等匿名加工情報(個人情報保護委員会ウェブサイト)
(参考3)個人情報の保護に関する法律についてのガイドライン(仮名加工情報・匿名加工情報編)
(参考4)医療分野の研究開発に資するための匿名加工医療情報に関する法律

 個人情報保護法第43条1項 及び 規則第34条の規定に則り、HER-SYSデータに対し適切な加工を行います。 具体的には、k-匿名化といわれる、個人が特定される確率をk分の1以下に低減して特定を困難にするデータ加工技法を用います。

2 匿名加工情報の一般利用の開始

 現在における匿名加工情報の利用は、データの保有事業者が、ある特定の利用希望者に対して、契約等によって提供するものという考えを前提としており、その前提を念頭に置いた法令整備がこれまで進められてきました。 このことから、HER-SYSの匿名加工データについても、初めのステップとしては、HER-SYSデータの研究・分析を特に希望する者が個別に利用提案の申請を行い、国が承認した者に限定して有償にて提供するという取扱でよいと考えます。

3 匿名加工情報のオープンデータ化

 個人情報保護委員会による、個人情報の保護に関する法律についてのガイドライン(仮名加工情報・匿名加工情報編)によると、 現行法においては、匿名加工情報のインターネット等での公開は禁じられてはおらず、「不特定多数への第三者提供に当たる」という性質とされています。 よって、次のステップとしては、あらゆる個人特定の可能性を排除した「強い匿名加工」を施したデータを作成し、政府機関によりオープンデータとして公開する、という進め方が望ましいと考えます。

4 匿名加工情報のLOD化

 HER-SYSの匿名加工オープンデータに、世界共通で理解できるメタ・データを付与し、LOD化します。加えて、公開RDFデータベースに格納しREST APIで誰でもアクセスできるようにします。
 もしここまで実現することができたならば、世界中の研究者がHER-SYSデータを研究し、我が国の感染症対策に多大な知見をもたらすはずです。また、オープンデータの利活用の分野においても、世界で最も優れた取組として必ず評価されると思います。

5 さらにその先へ

 政府の主催により「HER-SYSオープンデータ利活用コンテスト」を実施するとよいと考えます。全国の研究者やデータサイエンティストから、膨大な分析結果が政府に集積するはずです。その中から特に有用性が高いものについて、実際の行政政策に落とし込むことができれば国民全体の利益になります。
 ここまでもっていくことができて初めて、多額の税と労働を投入して構築・運用したHER-SYSというシステムは、そのコストに見合う価値があった、と言うことができるのではないでしょうか。

HER-SYS発生届ダミーデータLOD の公開



 現在はHER-SYSの元データを一般人が取得することはできませんので、政府や自治体により公開されている発生届の様式を参照し、その入力項目を精査のうえ、1000名分のダミーの匿名加工データを作成しました。
 また、世界中の方に向け、データ内容を容易に理解していただくことを狙いとして、入力項目ごとに URIを付与したメタ・データ を整備し、LOD化したダミーデータも作成しました。
 加えて、当LODダミーデータをRDFデータベースに格納し、SPARQL ENDPOINT として公開しました。
 このデータはダミーではありますが、HER-SYSデータを使えばどのような分析ができるか、或いはどのような角度からの統計が作成できるか、という研究を行うためには大いに利用価値があると思います。ぜひご利用ください。

■ HER-SYS発生届 匿名ダミーデータ(xlsx 形式)

■ HER-SYS発生届 匿名ダミーデータLOD(TURTLE 形式)

■ HER-SYS発生届ダミーデータLOD の SPARQL ENDPOINT
 オラクル・クラウドの RDF Graph Server を利用
 SPARQL ENDPOINT サポートアプリ も活用しています
■ LOD Smart IndexによるHER-SYS発生届ダミーデータの視覚化

■ HER-SYS発生届LODのメタ・データ情報

■ HER-SYSデータ全体のオントロジー(TURTLE 形式)

注意事項

 上記のデータは、現実の人物のデータをもとに作成したものではなく、すべて作者が一から創作した架空のデータであり、その発生動向も現実とは大きく異なるものとなっております。 利用者の誤解を招くことのないよう、上記のデータを二次利用した成果物等を公表する際は、必ずダミーデータである旨を示すようにしてください。
 これらのデータを利用したことに起因した損害等について、作者は一切の責任を負いません。

These data are not based on real people, but are all fictitious data created from scratch by the authors, and the trends in the occurrence of COVID-19 are very different from reality. To avoid misleading users, please be sure to indicate that these data are dummy data when you use them for secondary purposes. The author assumes no responsibility for any damages resulting from the use of these data.
作者:林 正洋