doc2vec実行時の備忘録

gensim

gensim.corpus

よく使われるコーパス用のアダプタクラス一式。例えばwikipediaのdumpを読み込みたい場合

gensim.models.doc2vec.TaggedDocument

namedtupleのラッパー、二つのリストからなる。

  1. 単語文字列 … e.g. [u"this", u"is", u"a", u"pen"]
  2. タグ … e.g. [u"SENT_1"], 要素数は任意だが一つだけにしておいた方が良い

TaggedLineDocument

TaggedDocumentと同様に使用できるが引数としてファイル名(あるいはファイルオブジェクト)をとる。gzされていてもよい。Taggedドキュメントにおけるタグは、行数から自動的に作成してくれる。あらかじめ空白で区切られていなくてはならない。

gensim.models.Doc2Vec

TaggedDocumentのイテレータ、あるいはTaggedLineDocumentを引数としてとる。

メソッド

Tweet This Page
BTC address: 16BQGsTmsKtbMMT2Zwj4qNZnnAncnVCtWo
NEM address: NBZ5WW-S53QRZ-DO73Z7-B6CA6I-R2PNS4-PLR24N-NKZJ 投げ銭をいただけると泣いて喜びます