ページの先頭です
以来、筆者は「歴史的な事実のDrilldownの機械化」を考え続けています。これは当初、研究というよりは執筆活動のための道具立てとしての側面が強かったのです。もちろん「これさえあれば執筆依頼を受けるハードルが下げられる」との少々ヨコシマな考えもありました(笑)。
機械化、つまり筆者の文献探索作業を模倣するソフトウェアを作るためには、まず「どのようにして文献を探していたのか?」を明らかにする必要があります。前述の記事執筆の経験から体得した「検索エンジンによる文献探索と事実情報の抽出」で最も重要だったノウハウは、固有名詞に着目することでした。在り来たりに思えるでしょうが人名、組織名、それから計算機の歴史的事実の場合は過去のコンピュータの型番や愛称などが該当します。これらの固有名詞をできるだけ拾い集めその組み合わせを変えて検索キーワードを指定すると、検索結果を望む方向に大きく絞れることが多かったのです。そこで英語テキストから固有名詞を抽出する技術を探すところから手を付けることにしました。
当然のことながら自然言語処理の研究領域の話になるのですが、調べ始めてすぐに気づいたことが2つありました。
まず(1)に関しては、現在の筆者とは研究の目的もゴールもまったく違うのですが、いずれも統計学に基づく技術をベースに研究が進められていることです。特に、筆者の場合はデータ分析の基盤技術も研究の対象となっているので、基盤技術だけを見れば多くの共通点が見つけられるように感じました。
次に(2)については、これまで自然言語処理と言うと暗黙のうちに「日本語の」と仮定していたところがあり、形態素解析や機械翻訳といった日本語に関わり深い研究が主要なテーマだと筆者は理解していたのですが、英語の自然言語処理研究では(当然のことながら)取り組まれているテーマがだいぶん違うとの印象を受けました。
筆者が欲していた「英語テキストから固有名詞を抽出する技術」も固有表現認識(NER:Named Entity Recognition)と呼ばれる英語での自然言語処理研究では主要な研究テーマの1つになっているそうです。
ページの終わりです