ページの先頭です
2013年6月12日
サービス終了のお知らせ
2017年12月末をもちまして当サービスを終了させていただくことになりました。
詳細につきましては、こちらをご覧ください。
IIJのグループ会社である株式会社IIJイノベーションインスティテュート(IIJ-II)の企画開発センターでは、クラウドコンピューティングのための技術開発を行うProject Gryfonを推進しています。このプロジェクトでは、特にビッグデータの収集や解析に使用するプラットフォームの開発を手がけています。
ブログやSNSなどのソーシャルメディアが普及する今日、社会的トレンドに関わるビッグデータは通常インターネットから収集されますが、Project Gryfonではそのデータソースとして、Wikipedia(ウィキペディア) に注目しています。
オンライン百科事典として有名なWikipediaは、GNU Free Documentation License(略称 GFDL) により記事の自由な複製・改変を認められていることから、その辞書データは「再利用に際してライセンスに関わる懸念の少ないデータ」として注目を集めており、自然言語処理やテキストマイニングといった研究分野を中心に、研究対象データとして広く活用されています。 Wikipediaの辞書データはこちらのページから入手が可能で、言語版ごとに約1ヵ月間隔で最新の辞書データがアップロードされています。
Wikipediaの辞書データ自体はリレーショナルデータベースに格納可能な規模なので、一般的な意味でのビッグデータに比べると幾分小さいのですが、それでも日本語版の最新データである「jawiki-20130530-pages-articles.xml.bz2 ( 2013年5月30日のダンプファイル) 」では、1,714,631 ページ(7,412,042,621バイト)が収録されています。
WikipediaはWikiシステムによる知識の集積結果であることから、自然言語処理でのシソーラスやオントロジーのソースデータとして活用することができます。その最大の利点は「知識が常時更新され続ける」ことにあり、常時アップデートしなければならないシソーラスやオントロジーの構築プロセス自体をビッグデータ処理と見なすことができます。また、その内容が百科事典であることから、Wikipediaはテキストマイニング系ビッグデータ解析における基礎データとして活用することもできます。
メールシステムやSNSなどから入手できるテキスト系ビッグデータの解析では、形態素解析などを行いますが、その基礎データとしてWikipediaの辞書データを利用することができます。Project Gryfonでは、Wikipediaのページタイトルからオープンソースの形態素解析エンジンであるMeCabの辞書を作成しましたが、これを利用することで、 MeCabによる固有名詞の抽出精度を改善することができました。
Wikipedia が提供するもう1つのデータソースがPage view Statisticsです。
このデータからは、任意に選んだ1時間内の Wikipedia(およびその他の Wikimediaプロジェクト)の各ページビュー情報を取得することができます。Project Gryfonでは、このページビューを集計するランキングシステムを構築しました。
このランキングを観察すると、該当する時間に放送されたテレビ番組や、その時間に配信されたニュースフィードに関連するページが、上位にランクされる確率が高いように見てとれます。このことから、スマートフォンの普及と相まって、Wikipediaが非常に一般的なオンライン百科事典として利用されていると推察できます。
以上の取り組みから、Wikipediaがテキスト系ビッグデータ解析の基礎データとして有効であることがわかってきました。Project Gryfonではこれらの成果に基づき、Wikipediaのリソースを効率良く活用できるプラットフォームを開発するとともに、その応用範囲を広げる試みを続けていきます。
執筆者プロフィール
藤田 昭人(ふじた あきと)
株式会社IIJイノベーションインスティテュート(IIJ-II)企画開発センター チーフアーキテクト
2008年IIJ入社。構造化オーバーレイ研究の知見を活用したクラウドコンピューティング技術の研究開発に従事している。
関連リンク
ページの終わりです