自動要約アルゴリズムを公開しました!

  • このエントリーをはてなブックマークに追加

読了時間5分

スクリーンショット 2013-08-15 4.01.27 AM

要点から言うと、この度試験的に自動要約サービスを公開しました。画像をクリックしてGo!

こんにちは、白ヤギの自然言語処理見習い、シバタアキラです。忙しい時に余計なことを聞かされると、イラっとクルものです。「いいから要点にまとめてくれない?」とか、夫婦間でいうのはあまりオススメしませんが、職場ではよく聞かれるのではないでしょうか。戦略コンサルティング会社は「3っつで言うと」とよく言うことでも知られているように、要点をまとめてササッと話せる人を大量生産しており、実際に重要なポイントをコンサイスに表現できる人は「よく出来る」ということになるわけです。

アルゴリズムによる自動要約の研究は最近始まったものではなく、既に10年以上の研究がなされており、理論的にも体型だって論じられているようです。自然言語処理学会では、各種の問題に対してアルゴリズムの公募が行われていますが、2007/2008年にはNIST主催で自動要約のコンペも行われていました。結果はこちらの論文にまとまっており、実に色々なアプローチでかくチームの叡智が結集されています。

最先端分野での挑戦は特に

  • 抜き出し(Extraction)だけでなく、よりコンパクトかつ読みやすい要約をつくる
  • ニュース記事などの短文ではなく、エディトリアルや、本などの長文の要約
  • 一つの記事だけではなく、複数記事にまたがるソースからの要約
  • 100文字程度の非常に短い要約

最終的な結果としては「それでもやはり人間の要約には程遠い」というのが結論だそう。実際にアルゴリズムのパフォーマンスと人間のパフォーマンスを定量化したものが下記で、明確な開きが見られます。

スクリーンショット 2013-08-15 2.05.52 AM

そんな中でも特に優秀な結果を出したアルゴリズムの一つはモントリオール大学のグループによるもの。基本的な思想としてはtf-idfと呼ばれる手法で各文章の重要度を測り、重複を避けて取り出した上で、より自然な文体になる様ポストプロセスするというものでした。

カッティングエッジの研究はさておき、先述の通り、ある程度のクオリティーの要約は比較的シンプルなルールをもとに作り出すことが出来ます。特にニュース記事においては「黄金の」アルゴリズムがあって「一行目を取り出してくる」というのがそれです、笑。当然ニュース記事においては重要な事から書くことが慣習となっているため、多くの場合これは正しい結果を生み出します。

少し学術的に問題を定義すると、「全体の文章を最も端的に言い表している可能性の高い文章を探してくる」ことを今回のアルゴリズムの目的としました。そこから基本的にトライアル・アンド・エラーで、いくつかのルールを見出していきました。例えば

  • タイトルに含まれている単語を含む文章は本文の要約をしている可能性が高い
  • 上の方にある文章ほどその重要度が高い
  • 文章全体のキーワードをカウントした時、特に上位に来るワードの重要さが大きい

などです。あまりテクニカルになっても面白く無いので避けますが、こちらからお試しいただけます。

例えば日経新聞から適当に選んだ記事を要約してみました。その結果がこれ

誰でも「映像作家」に 操作簡単、ホンダの動画アプリ :日本経済新聞

1. ホンダが昨年11月に公開した動画作成アプリ「ROADMOVIES(ロードムービーズ、RM)」の利用が拡大している。

2. 簡単な操作で誰でも完成度の高い映像が作成できるとあって、iPhoneのみの対応ながら7月末時点で累計ダウンロードは130万を超えた。

3. しかし、作成した動画がネットで拡散する過程で、ホンダのサービスを知るしかけが随所にちりばめられている。

見事に三点にまとまっているではないですか。典型的な長さのニュース(半ページ程)であればほとんどの場合綺麗に3つにまとめてくれます。

一方で、長めの特集記事などはもう一工夫必要なところです。現在公開してるサービスでは、要約された文章が3ポイントで表した時に元の文章の10%以下の長さになる時は5ポイントで表しています。例えば、4ページから成るコチラの特集記事、要約してみるとこんな結果になりました。

スパイ問題で崩壊、米クラウドの安全神話 3兆円超の損失も

1.  米中央情報局(CIA)の元職員、エドワード・スノーデン氏が暴露した「PRISM」プロジェクトが、米国IT業界に暗い影を落としている。

2. データセンターに置いたアプリケーションをネット経由で企業や個人が利用する「クラウド」サービスから、米国政府が情報を秘密裏に収集していたことに、EC(欧州委員会)が猛反発。

3. ある市場調査では、米国以外のユーザー企業の約7割が米国のクラウドサービスについて利用を見直すと答えた。

4.  米国政府が電話を盗聴していることは従来から広く知られていたが、PRISMでは米国系クラウド・プロバイダー(サービス提供会社)のサーバーに蓄積した個人情報もターゲットにしている。

5. 米グーグルや米フェイスブック、米アマゾン・ウェブ・サービス、米マイクロソフトといったクラウド・プロバイダーのサービスに、米国家安全保障局(NSA)がアクセスして、ユーザーの情報を極秘のうちに収集していた。

それでもそんなに悪く無いですね。

新聞社の記事は結構書き方が決まっているのでこのアルゴリズムとの相性がいい可能性が大きいですが、他の種類のソースではなかなか不完全な要約になってしまったりすることもあります。そんなわけで、今回こちらのサービスを試験的に公開しますが、よろしければその結果を評価して送信して下さい。そうすることで少しずつですがアルゴリズムが機械学習して頭が良くなっていきます。その辺の仕組みもまたそのうちブログにかければと思います。

とりあえず使ってみてください!フィードバックもお待ちしております。
シロサム

最先端情報吸収研究所 – AIAL

際限ない情報の中から、自分に価値のある情報を効果的に吸収することは、かつてなく大きなチャレンジです。最先端情報研究所はニュースアプリ「カメリオ」、レコメンドエンジン「カメクト」を提供する白ヤギコーポレーションのR&D部門として、データサイエンスの力でこの問題を解決していきます。白ヤギでは現在研究開発メンバーを募集しております。ご興味のある方は是非下記サイトを御覧ください!

Date:2013-08-15 Posted in:バックエンドの技術 Text by: