ページの先頭です
ビッグデータ解析基盤のリアルタイム化は、ビッグデータの定義でよく語られる3Vs(Volume、Variety、Velocity)のうちのVelocity方向への能力拡大への対応と理解されています。3Vsの定義を世に広めたGartnerによると、Velocityでは「データの生成と処理の高速性」について説明していますが、例えば、センサーデータやログデータの解析や、GPS情報を用いた時空間データ解析、あるいはソーシャル・メディアから入手できるストリームデータの解析などが、Velocityの要件が問われる具体的な事例として上げられます。このような既存の解析では、異常検知や空間移動の履歴、センチメント分析など、蓄積している過去データから新たな知見を得る事例が良く知られていますが、リアルタイムビッグデータ解析基盤の即時性の向上により、今後は、より時間軸に重点をおいた時系列分析や、それに基づく予測などへと解析方法の多様化が進むと考えられています。
我々は、ビッグデータの時系列に着目した分析の1例として、Wikipedia Pageview Count(Wikipedia PVC:http://www.gryfon.iij-ii.co.jp/ranking/)を用いたトレンド分析を試みています。周知のように、Wikipediaは最も成功し ているインターネット百科事典です。非常に開かれた運営方針が採用されており、そのデータベース等は無償で入手できることから、研究など様々な用途に活用されています。その一部として公開されているWikipedia PVCは、2013年1月頃から公開されるようになりましたが、これは各Wikipediaページの直近の1時間あたりのページビュー数を1 〜2時間の更新頻度で公開しています。Wikipedia PVCとWikipediaデータベースを組み合わせると、社会的トレンドを示す時系列データとして利用することができますが、これはインターネット経由で入手できるソーシャルビッグデータの1例と見なせます。百科事典としての特性を持つため、一般的なソーシャルメディア(SNSやブログ)と比較すると次のような特徴があります。
トレンド分析などにおいて、一般的なソーシャルメディアから取得したメッセージ等を用いてテキスト分析を行う場合、用語法の統一などが図られていないため、データ解析を行う上での障害となる場合が多いですが、意味的な発散が抑制されているWikipediaデータでは、そのような障害は起こりづらく、人間に理解しやすい分析結果が得られると考えています。
百科事典として広く認知されているWikipediaでは、メインページ、あるいは外部のサーチエンジンから、知りたいトピックについて検索して該当するページにたどり着く利用パターンが一般的でしょう。
あるWikipediaページに着目して、そのPVCの時系列的変動を観察すると、いずれかのタイミングでピークが発生した後、徐々に減衰をすることが確認できます。特に、顕著なピークが現れる幾つかのページについて更に調査を進めたところ、テレビ放送やネットニュースで報道されたトピックを扱うページが反応していることが分かりました。すなわち、テレビ番組の視聴者やネットニュースの読者は、未知のトピックが現れた場合にWikipediaでその内容を調べる行動を取っている仮説が成り立ちます。
そこで、この仮説を検証するために、連続ドラマに着目しドラマの各回の放映時間と、Wikipedia PVCの時系列的変動との関係を調査しました。連続ドラマに着目した理由は、連続ドラマが放映されている時間には対応するWikipedia ページの、PVCにピークが発生する確率が極めて高いことが確認できていたことによります。また、テレビドラマの場合は「視聴率」という広く認知されている指標があり、Wikipedia PVCによるピークとの関係を調べることができることも重要でした。
Wikipedia PVCは、2008年以降に民放で放映された連続ドラマ334件すべてのデータを入手できます。その中から、Wikipedia PVCにデータ欠損のないドラマ244件について、次のような方法で分析を行いました。
[2]の回帰分析では、計量経済学で用いられる「社会的イベントは指数関数に基づいて変動する」との知見に基づき、回帰式 pvc = α * exp(β*t) + γを用いて分析を行いました。更に、放送時間の遅延や拡大を考慮してピーク値の補正を行いました。
非線形回帰分析の結果はいずれも放映時に高いピークを示し、その後γ値に収束します。分析により得られた係数α,β,γについて平均視聴率との相関を調べたところ、γ値との間に相関が見られました。テレビドラマ「半沢直樹」の各回のγ値と平均視聴率との相関分析結果を図-5に示します。
γ値と平均視聴率の相関は、本稿執筆時には、有効データ244件のうち40件で分析を行い「有意性あり」の結果を得ています。残る204件についても相関分析を順次実施して行きますが、特に、視聴率の低いドラマの場合には、Wikipedia PVC変動と視聴行動が同期していない事例も見つかっているため、有効データにおいて「有意性あり」が確認できる件数と、この解析方法が適用できるWikipedia PVC値の範囲を明らかにする計画です。
ページの終わりです