こんにちわ。白ヤギコーポレーションでエンジニアをしている谷田です。
自然言語処理では、テキストに含まれる単語をベクトルとして表現するというタスクが頻繁に発生します。最近ではそのために、日本語テキストが来たらMeCabに渡してword2vecに投入する、というのが定番パターンのひとつかと思います。word2vecは単語を分散表現と呼ばれる低次のベクトルに変換するモデルですが、単語をベクトルに変換するためには事前に学習を走らせておく必要があります。word2vecモデルの学習にはよくWikipedia日本語版をコーパスとして使ったりするのですが、全記事で学習を走らせると結構時間がかかります。
そこで、白ヤギが作った日本語word2vecモデルを公開します!
http://public.shiroyagi.s3.amazonaws.com/latest-ja-word2vec-gensim-model.zip
そして、このモデルをビルドするソースコードも公開します!
https://github.com/shiroyagicorp/japanese-word2vec-model-builder
このword2vecモデルは、Python用ライブラリGensimに用意されているword2vec実装を使っています。ハイパーパラメータを変更したい場合などは、リポジトリのコードに含まれるビルドコマンドをオプションを指定して実行してください。
使用するためには次のようにモデルを読み込みます。
from gensim.models.word2vec import Word2Vec model_path = '/path/to/word2vec.gensim.model' model = Word2Vec.load(model_path)
.
レッツ自然言語処理!
# 白ヤギコーポレーションでは自然言語処理が得意なソフトウェアエンジニアを募集しています!