ページの先頭です
図らずも、筆者が考える「歴史的な事実のDrilldown文献探索」の機械化は、最新の自然言語処理研究の成果を使えばかなり前進するのではないか?という予感と、筆者が研究として取り組んでいるWikipedia分析のために開発した基盤技術がこの取り組みにも活用できる可能性があることに少し驚きを感じているところです。
文献から人名やシステム名を抽出する仕事はNERを使えば実現可能ですが、その認識精度を上げるためにはNEコーパスの入手とそれを使った学習が欠かせません。独自のNEコーパスを生成するためのリソースとして、日頃から慣れ親しんでいるWikipediaが活用できるというのは朗報でした。残る課題は500万ページ以上ある英語版Wikipediaから人物のページを拾い上げること・・・。
この問題は、筆者が手がける歴史書の執筆などではあまり問題にはならないように思います。歴史書の執筆とは筆者が定めたテーマ、すなわち時代や人物、事件について深く掘り下げていく行為にほかならないからです。英語版Wikipediaから執筆テーマに関連する人物のページを収集する作業などは日常茶飯事です(笑)。ノンフィクションや報道記事を手がける記者や社会科学の研究者は、人物に限らず固有表現やその分類に精通しています。彼らの知識を集合知として集め共有する方法を考えるのが、問題解決の早道だと思います。
以上、筆者は思いもよらぬことから今日の自然言語処理研究を学べる機会を得ましたが、この研究成果は、現在研究で手がけているソーシャルデータの分析にも活用できるのではないかと考えている次第です。例えば「要因分析」。ソーシャルデータの時系列分析を行うと急激な変動、いわゆるバーストを検知することができますが、このバーストを引き起こした原因がなんであったかを調べるためにはバースト発生時の社会的動向を追跡する必要があります。筆者は検索エンジンなどを使って報道記事を集めることを考えていたのですが、そのための検索条件を決める手段として本稿で紹介した方法が使えるのではないかと考えてます。
執筆者プロフィール
藤田 昭人 (ふじた あきと)
株式会社IIJイノベーションインスティテュート(IIJ-II)企画開発センター チーフアーキテクト。2008年IIJ入社。
構造化オーバーレイ研究の知見を活用したクラウドコンピューティング技術の研究開発に従事している。
ページの終わりです