マルチメディアデータベースに対する索引付けの自動化に関する研究


[ 背景 | 目的 | 枠組 | 特色 | 進行状況 | 発表文献 | 連絡先 | 関連サイト | 謝辞 ]

1.研究の背景

昨今の放送媒体の多様化やチャンネル数の増加に伴い、日々放送される映像の 量は増大している。 しかし、これらの情報の検索に必要な索引付けは、ほとんど行なわれていない。
そのため、
  1. 氾濫する情報の中から利用者が必要とするものを選別して提示する
  2. 情報の再利用を容易にするために、提供された情報を整理して蓄積する
必要が高まっている。


2.研究の目的

これらの要請を満たすためには、マルチメディア情報に適切な検索キーを付与することが必要であるが、現在マルチメディアデータへの検索キーの付与は基本的には人手に頼っており、今後の情報の量的増大や要求の質的向上を満たすには不十分である。

無論、CMUのInformediaプロジェクトをはじめ、様々な試みが内外で行なわれてはいるが、出現頻度の高い単語やタイトルの字幕をそのまま利用して索引付けを行なうにとどまっており、画像内容とのきめ細かな対応付けは行っておらず、言語情報の利用も本格的とは言いがたい。
また、画像的特徴量を自動的に抽出して検索キーとするような研究も行われてはいるが、色彩的特徴や雰囲気は抽出できても、画像中の具体的な事物を抽出することは困難であり、このような手法が適用できる対象は限られている。

そこで本研究では、困難な画像処理は必要最小限の特徴量抽出にとどめる一方で、画像内容に対してきめ細かな索引付けを行なうために、具体的な内容の認識に言語情報を積極的に利用することを考える。 そして最終的には、このように画像情報と言語情報を統合的に利用することによる自動的な索引付けの有効性を示すことを目指す。

下図に、マルチメディアデータベース自動生成の未来像を示す。


3.研究の枠組

以上の目的を実現するために、本研究では下図に例示すように、副音声など画像以外の言語情報を利用することによって、画像中の事物への索引付けを自動化するようなシステムを構築することを最終的に目指す。

このようなシステムを実現するための要素技術として、

  1. 自然言語処理
  2. 画像処理
  3. 両者の統合処理
が必要とされる。 1.および2.に関しては、基本的には既存の自然言語処理や画像処理の研究成果を利用することとし、本研究では3.を的確に行うようなシステムの構築を中心に考えていく。


4.研究の特色

従来、自然言語処理と画像処理は各々独立した分野として研究されてきたが、近年の両分野の発展に伴い、自然言語処理および画像処理単独からでは得ることができない情報を、両者を統合して処理して、互いに不足している情報を補完し合うことにより得られるようにする研究が行われ始めている。
このような研究の流れを受けて、本研究ではマルチメディアデータ中の様々なデータ(ex. 画像, 音声, 文字, …)を統合して処理することにより、そのデータに対する検索キーの自動付与を行い、将来的にはマルチメディアデータベースの自動的な生成を行うことを目指している。

既存の多くの研究では、画像情報や自然言語情報などのデータ単体から検索キーを抽出する手法の模索を行っていたが、各々の情報単体での情報量には限りがあるため、システム側であらかじめかなりの量の知識を保持している必要があり、それゆえ汎用性に乏しくならざるを得なかった。
それに対して、本研究の特徴的な点は、システム側では自然言語文の格解析や動作物体の分離といった、一般的な処理を行うための手段を用意するだけであり、その他の、対象に特化した知識はほとんど必要とせず、かなりの汎用性をもつことである。
これは単に既存の手法では利用せずにいた情報を利用しているためだけではなく、様々なデータを統合して処理することにより、様々な情報同士の関連がもつ情報をも利用するためである。


5.研究の進行状況

(1) 修士課程における研究

マルチメディア(画像)データベースの効率的な検索および、データベース生成の(半)自動化を実現するための基礎的研究として、おもに検索キーに注目した研究を行った。
この研究の具体的内容は、以下に示す二つに大きく分けられる。
  1. まず、人間による画像の描写(=内容の記述)の特徴などを調べるために、 画像の描写に関する心理実験を行った。 そして、その解析を通じて画像データベースの検索の際に重要な役割を 果たす検索キーの、画像を扱うのに適切な構造と備えもつべき内容的特 徴に関して検討した。
    その結果、階層構造をもつ検索キーが必要であることや、一枚の画像に 対して必要な検索キーの数が限られているなどの知見を得た。
  2. 1.の結果得られた知見をもとに、効率的な検索を実現するために導入す る、画像内容の記述に基づき、階層構造をとる検索キーを用いた画像デー タベースシステムの構築法および検索法に関して検討した。
    その結果、画像データを扱うのに適していて、かつデータベースへの問 い合わせの語彙的・概念的多様性を吸収し、誤った検索を防ぎつつも、 より柔軟な検索を可能にしたシステムを提案し、今後の画像データベー スシステムの一つのあり方を示した。
なお、この研究とその成果は、発表文献[1], [2], [3]を参照のこと。

(2) 博士課程における研究

[1997/06/05現在改訂作業中]


6.発表文献

発表文献一覧はこちら


7.連絡先


8.関連サイト


研究室の研究内容のページへ戻る
井手の研究内容のページへ戻る
Research on Automatic Key Generation for Multimedia Databases (in Japanese) / ide@mtl.t.u-tokyo.ac.jp