研究ノート

京都大学総合博物館

標本データベースの構造


1.はじめに
 周知のように、日本の博物館は諸外国の博物館のように十分な数の学芸員を配置している例はほとんどない。そこで、博物館に収蔵されている標本を効率よく活用するために、コンピュータを活用すべく、多くの博物館では収蔵標本のデータベース化が進められている。しかし、標本と種名は直接関連付けられている従来型の博物館データベースシステム(図1)は、簡便にデータベースが構築でき、当該分野における分類検索には非常に効率的である反面、異分野の標本を同一システムで取り扱えないという欠点を有す。
 そこで、標本と種に対し個別IDを付与することにより、異なる複数の分野のデータを入力しても安定的に動作するデータベースの構築を目指し、京都大学総合博物館標本データベース型データベースシステム(以降KUMC型DSと称する)を開発した。


図1 従来型標本データベースの概念図。標本と種名は同一テーブルに記述される。標本から発生した標本番号と標本関連情報を、種名から発生した分類コードと分類学的情報を関連付ける。

2.従来型データベースの問題点
 図1で示すように、標本に名称である種名があるのは分野によらない。ところが何を一つの標本とみなすか、もしくは何を一つの種類とみなすかは強く分野に依存している。その問題点を要約すると(1) 標本の場合では、「どのような単位を」一つの標本とみなすかは強度に分野依存的である。例えば、魚類液浸標本ではバケツなどに入っている複数個体を一つの標本とみなすが、植物さく葉標本では個体の一部である一枚のさく葉を一つの標本とみなす。
(2) 種名の場合では、「どのような単位に対して」一つの名前をつけるかは強度に分野依存的である。例えば同じ岩石系標本でも、岩石学的記載によれば特定の鉱物の組み合わせに対して一つの岩石名をつけるが、鉱物学的記載によれば一つの名称が与えられるのはその岩石中の一部にすぎない。
 異分野統合型データベースでは(1)、(2)のいずれの場合においても、各分野で記載されている一つの標本、一つの種を等価とみなしてデータベースを構築しなければならないが、従来のシステムでは、全ての分野において記述されている一つの標本の概念、一つの種の概念を等価とみなしてデータベースを構築することはきわめて困難であった。そのことがこれまで分野横断型標本データベースの構築が困難とされてきた理由 である。
 そこで、KUMC型DSでは後述のように一つの標本、一つの種の単位を決定し、データベースを構築した。

3.KUMC型DSの原則
 KUMC型DSは、以下の原則に従う。 データベース内では、 1. 標本と種名にはそれぞれ独立のIDを付与し、完全分離して管理する 2. 標本につけられた固有IDには標本にかかわる固有情報のみを関連させる 3. 種名につけられた固有IDには種にかかわる固有情報のみを関連させる 4. 標本につけられた固有IDと種名につけられた固有IDを基準にデータベースを運用する

KUMC型DSにおけるひとつの標本
自然界の物質は、標本として記載されるまで、複数の異なる記載が行われる可能性がある。ここで仮にある物質が一つの標本となりうるにたる条件を満たしている事を一つの標本になりうる可能性という意味で「標本単位」と記述すると、自然界にあるいかなる物質もひとつもしくは複数の標本単位で構成されているとすることが出来る。KUMC型DSでは、1つの標本単位の物に対し、一つの標本IDを与える。
 標本の採集者が、その属する学問領域の慣習に従い物質を「標本」として採集してきた場合、その学問領域の標本単位を満たすように標本を採集し、その記載を行うが、採集の方式によっては他の標本単位を満たすような採集(岩石標本として採集された物が鉱物標本として記載される場合など)が行われる場合も少なくない。
 一つの標本IDに対し、異なる複数の分野の種IDを付加することが可能なKUMC型DSでは、採集者の属する学問領域を超えての標本の記載とその記載情報のデータベース化が可能であるため、一つの標本の分野横断的利用を可能にする。ただし、標本管理・運用上の混乱を避けるため、KUMC型DSを多分野対応型標本データベースとして運用する場合、いかなる標本も、特定の標本IDがどの標本のどの範囲に対して与えられたか を厳密に記述して、IDを割り振る必要がある。

KUMC型DSにおけるひとつの種
 生物の種名のように、ある分野において定義された再現可能な形で分類された特定のグループを「名称単位」と記述すると、自然界にあるいかなる物質も一つもしくは複数の名称単位に属しているとすることが出来る。KUMC型DSではこの一つの名称単位に対して、ひとつの種IDを与える。
 この場合、分野(分類方式)によっては、一つの種IDが別の種IDの部分集合である場合が考えられるので、種IDの示す領域は厳密に記述され、IDが割り振られる必要がある。なお、データベース内に登録されている種IDには、後述するような種に関する一般的情報のみが関連している。そのため、既存の他の標本データベースとは異なり、対応標本がなくとも、種IDの登録が可能である。

4.KUMC型DSの構造
上記の原則にのっとり、KUMC型DSでは、データベースに登録する物(標本)には、個別の識別番号を割り振る(これを標本IDと呼ぶ)。また、データベースに登録される種類(種名・岩石名など)には、個別の識別番号を割り振る(これを種IDと呼ぶ)。標本は標本IDとのみ、種名は種IDのみと直接関連し、標本IDと種IDからなる共通テーブルを構築する(図2)。


図2 KUMC型DSの概念図。KUMC型DSでは標本はまず標本単位に、種名は名称単位に区分される。標本単位と標本ID、名称単位と種IDの関係は分野非依存で決定しているので、標本IDと種IDからなる分野非依存の共通テーブルが構築できる。標本関連情報は標本IDと分類学的情報は種IDとそれぞれ関連付けることにより、登録されている全情報を検索することが可能となる。

 データベース内の全ての情報管理をこの共通テーブルを中心におこなうことで、標本や種は分野横断的に利用できる。次に、標本の特性により発生する情報は標本IDと、種の特性により発生する情報は種IDと関連付けを行ない、リレーショナルデータベースシステムの方式を用い、データベースを運用する(図3)。

KUMC型DSでは、データベース内に登録されている物は全て必ず1つの標本IDを保有し、登録された物のどの範囲がそのIDに含まれるかは登録が行われたときに決定される。
 データベース内で一つの標本IDが他の標本IDの部分集合であることは妨げない。また、複数の標本の一部に対して新たな標本IDを付与することも可能である。
 有効な情報の検索のためには一つの標本IDに対して、最低1つの種IDが対応することが望ましいが、標本IDのみを登録し、種IDとの関連付けを行なわないことも可能である。

標本IDに関連する情報 標本IDと直接関連付けられる情報は、標本の管理に必要な情報(たとえば、標本の保管場所、標本の採集者・採集場所など)と標本の運用に必要な情報(掲載論文、標本番号、化学組成、遺伝学的情報など)である。
種IDに関連する情報 種IDと直接関連付けられる情報は、種に関する分類学的情報(属名、科名など)、種の共通的特性に関する情報(分布域の気象条件、形成条件)である。

データベースからのデータの検索は
(1) 種名等の種IDに関連する情報を種IDから検索する
(2) 共通テーブルから種IDと標本IDの相互関係を検索する
(3) 標本の保管場所等の標本IDに関連する情報を検索する
の3つを適宜組み合わせることで実現する。

5.まとめ
 これまで多くの博物館などで構築されてきたデータベースの限界を超えて、KUMC型DSは異なる分類体系で記述されている標本を分野横断的に同一システム下で管理することを可能とした。また、それに付随して、未記載標本の登録や(標本が紛失した場合など)標本がない状況下でも種名の登録を行なうことが可能になった。これは、標本の分類・記載に関連して新たに標本単位と名称単位の概念を創造し、そこから標本ID、種IDを創生し、標本に関わる情報とその分類・記載に関わる情報を個別符号化して管理するシステムを構築したことにより実現したものである。
 さらに、この物と分類・記載学的情報の個別符号化により、KUMC型DSは以下の状況にも対応できるシステムとなった。
1. 同一標本の分野横断的活用とその支援
2. 分類学の進歩に伴い発生する分類項目の分割・新設・統廃合
 なお、KUMC型DSの運用として、上記二点およびそれに付随する問題が挙げられるが、これは稿を改めて詳細に議論されるべきであると考え割愛した。


図3 京都大学総合博物館標本データベースにおけるKUMC型DSの運用模式図。標本IDと種IDからなる共通テーブルに対し、標本管理に必要情報をまとめた「管理支援情報テーブル」標本の活用に必要な情報をまとめた「研究支援情報テーブル」を設け、より運用しやすいシステムとしたものである。なお、図2で述べるところの標本関連情報を「標本の管理に必要な情報」と「標本の運用に必要な情報」に、分類学的情報を「種に関する分類学的情報」と「種の共通的特性に関する情報」に分割し、管理支援情報テーブルと研究支援情報テーブルに分配している。

(神戸大学自然科学研究科研究生/京都学園大学非常勤講師 坂元尚美)