word2vecの学習済み日本語モデルを公開します

  • このエントリーをはてなブックマークに追加

読了時間2分

こんにちわ。白ヤギコーポレーションでエンジニアをしている谷田です。

自然言語処理では、テキストに含まれる単語をベクトルとして表現するというタスクが頻繁に発生します。最近ではそのために、日本語テキストが来たらMeCabに渡してword2vecに投入する、というのが定番パターンのひとつかと思います。word2vecは単語を分散表現と呼ばれる低次のベクトルに変換するモデルですが、単語をベクトルに変換するためには事前に学習を走らせておく必要があります。word2vecモデルの学習にはよくWikipedia日本語版をコーパスとして使ったりするのですが、全記事で学習を走らせると結構時間がかかります。

そこで、白ヤギが作った日本語word2vecモデルを公開します!
http://public.shiroyagi.s3.amazonaws.com/latest-ja-word2vec-gensim-model.zip

そして、このモデルをビルドするソースコードも公開します!
https://github.com/shiroyagicorp/japanese-word2vec-model-builder

このword2vecモデルは、Python用ライブラリGensimに用意されているword2vec実装を使っています。ハイパーパラメータを変更したい場合などは、リポジトリのコードに含まれるビルドコマンドをオプションを指定して実行してください。

使用するためには次のようにモデルを読み込みます。

from gensim.models.word2vec import Word2Vec
model_path = '/path/to/word2vec.gensim.model'
model = Word2Vec.load(model_path)

.
レッツ自然言語処理!

# 白ヤギコーポレーションでは自然言語処理が得意なソフトウェアエンジニアを募集しています!

最先端情報吸収研究所 – AIAL

際限ない情報の中から、自分に価値のある情報を効果的に吸収することは、かつてなく大きなチャレンジです。最先端情報研究所はニュースアプリ「カメリオ」、レコメンドエンジン「カメクト」を提供する白ヤギコーポレーションのR&D部門として、データサイエンスの力でこの問題を解決していきます。白ヤギでは現在研究開発メンバーを募集しております。ご興味のある方は是非下記サイトを御覧ください!

Date:2017-02-20 Posted in:研究 Text by: