doc2vec実行時の備忘録

gensim

gensim.corpus

よく使われるコーパス用のアダプタクラス一式。例えばwikipediaのdumpを読み込みたい場合

gensim.models.doc2vec.TaggedDocument

namedtupleのラッパー、二つのリストからなる。

  1. 単語文字列 … e.g. [u"this", u"is", u"a", u"pen"]
  2. タグ … e.g. [u"SENT_1"], 要素数は任意だが一つだけにしておいた方が良い

TaggedLineDocument

TaggedDocumentと同様に使用できるが引数としてファイル名(あるいはファイルオブジェクト)をとる。gzされていてもよい。Taggedドキュメントにおけるタグは、行数から自動的に作成してくれる。あらかじめ空白で区切られていなくてはならない。

gensim.models.Doc2Vec

TaggedDocumentのイテレータ、あるいはTaggedLineDocumentを引数としてとる。

メソッド

Tweet This Page
BTC address: 16BQGsTmsKtbMMT2Zwj4qNZnnAncnVCtWo
LTC address: LZuEiJecMZFN48k6jRhoRQZvH8VS1MBuGc