無論、CMUのInformediaプロジェクトをはじめ、様々な試みが内外で行なわれてはいるが、出現頻度の高い単語やタイトルの字幕をそのまま利用して索引付けを行なうにとどまっており、画像内容とのきめ細かな対応付けは行っておらず、言語情報の利用も本格的とは言いがたい。
そこで本研究では、困難な画像処理は必要最小限の特徴量抽出にとどめる一方で、画像内容に対してきめ細かな索引付けを行なうために、具体的な内容の認識に言語情報を積極的に利用することを考える。
そして最終的には、このように画像情報と言語情報を統合的に利用することによる自動的な索引付けの有効性を示すことを目指す。
下図に、マルチメディアデータベース自動生成の未来像を示す。
このようなシステムを実現するための要素技術として、
既存の多くの研究では、画像情報や自然言語情報などのデータ単体から検索キーを抽出する手法の模索を行っていたが、各々の情報単体での情報量には限りがあるため、システム側であらかじめかなりの量の知識を保持している必要があり、それゆえ汎用性に乏しくならざるを得なかった。
3.で例示したようなシステムの雛型を作成している。
具体的には、
2.研究の目的
これらの要請を満たすためには、マルチメディア情報に適切な検索キーを付与することが必要であるが、現在マルチメディアデータへの検索キーの付与は基本的には人手に頼っており、今後の情報の量的増大や要求の質的向上を満たすには不十分である。
また、画像的特徴量を自動的に抽出して検索キーとするような研究も行われてはいるが、色彩的特徴や雰囲気は抽出できても、画像中の具体的な事物を抽出することは困難であり、このような手法が適用できる対象は限られている。
3.研究の枠組
以上の目的を実現するために、本研究では下図に例示すように、副音声など画像以外の言語情報を利用することによって、画像中の事物への索引付けを自動化するようなシステムを構築することを最終的に目指す。
が必要とされる。
1.および2.に関しては、基本的には既存の自然言語処理や画像処理の研究成果を利用することとし、本研究では3.を的確に行うようなシステムの構築を中心に考えていく。
4.研究の特色
従来、自然言語処理と画像処理は各々独立した分野として研究されてきたが、近年の両分野の発展に伴い、自然言語処理および画像処理単独からでは得ることができない情報を、両者を統合して処理して、互いに不足している情報を補完し合うことにより得られるようにする研究が行われ始めている。
このような研究の流れを受けて、本研究ではマルチメディアデータ中の様々なデータ(ex. 画像, 音声, 文字, …)を統合して処理することにより、そのデータに対する検索キーの自動付与を行い、将来的にはマルチメディアデータベースの自動的な生成を行うことを目指している。
それに対して、本研究の特徴的な点は、システム側では自然言語文の格解析や動作物体の分離といった、一般的な処理を行うための手段を用意するだけであり、その他の、対象に特化した知識はほとんど必要とせず、かなりの汎用性をもつことである。
これは単に既存の手法では利用せずにいた情報を利用しているためだけではなく、様々なデータを統合して処理することにより、様々な情報同士の関連がもつ情報をも利用するためである。
5.研究の進行状況
(1) 修士課程における研究
マルチメディア(画像)データベースの効率的な検索および、データベース生成の(半)自動化を実現するための基礎的研究として、おもに検索キーに注目した研究を行った。
この研究の具体的内容は、以下に示す二つに大きく分けられる。
なお、この研究とその成果は、発表文献[1], [2], [3]を参照のこと。
その結果、階層構造をもつ検索キーが必要であることや、一枚の画像に
対して必要な検索キーの数が限られているなどの知見を得た。
その結果、画像データを扱うのに適していて、かつデータベースへの問
い合わせの語彙的・概念的多様性を吸収し、誤った検索を防ぎつつも、
より柔軟な検索を可能にしたシステムを提案し、今後の画像データベー
スシステムの一つのあり方を示した。
(2) 博士課程における研究
[1997/06/05現在改訂作業中]
を行っている。
処理のしやすさとしては、以下の事項を基準とする。
抽象的な会話ではなく画像と結び付き得る具体的な動作などを含む副音声あるいは主音声のセリフがある。
画面全体が十分明るく、背景とカメラが固定されていて、さらにあまり多くの動作領域がない。
現時点では、3. まである特定のシーンに関して実現されているが、4. に関しては今後どのように対応付けを自動化すべきか検討中である。
6.発表文献
発表文献一覧はこちら
7.連絡先
井手 一郎 [D3+] (ide@mtl.t.u-tokyo.ac.jp)
浜田 玲子 [M2] (reiko@mtl.t.u-tokyo.ac.jp)
佐久間 丈貴 [B4] (takeki@mtl.t.u-tokyo.ac.jp)
下萩原 勉 [B4] (tsutomu@mtl.t.u-tokyo.ac.jp)
8.関連サイト
マルチメディア統合処理,マルチメディアデータベース構築法
東京大学 生産技術研究所 第3部 坂内研究室 (概念情報工学研究センター)
龍谷大学 理工学部 電子情報学科 有木研究室
筑波大学 第三学群 工学システム学類 大田・中村研究室
横浜国立大学 理工学部 電子情報工学科 Dグループ 有澤研究室
龍谷大学 理工学部 電子情報学科 坂井・岡田・渡辺研究室
中央大学 理工学部 経営システム工学科 加藤ゼミナール
自然言語処理
画像処理
電子図書館,電子博物館,電子美術館
テレビジョン放送関連
東京大学大学院 工学系研究科 電子情報工学専攻 羽鳥・相澤研究室
Cable News Network Inc. CNN Networks
日本放送協会 放送技術研究所
研究室の研究内容のページへ戻る
井手の研究内容のページへ戻る
Research on Automatic Key Generation for Multimedia Databases (in Japanese) / ide@mtl.t.u-tokyo.ac.jp