pip install gensim安装好库后,即可导⼊使⽤:1、训练模型定义
from gensim.models import Word2Vec
model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)
参数解释:
1.sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。
2.size是输出词向量的维数,值太⼩会导致词映射因为冲突⽽影响结果,值太⼤则会耗内存并使算法计算变慢,⼀般值取为100到200之间。
3.window是句⼦中当前词与⽬标词之间的最⼤距离,3表⽰在⽬标词前看3-b个词,后⾯看b个词(b在0-3之间随机)。4.min_count是对词进⾏过滤,频率⼩于min-count的单词则会被忽视,默认值为5。
5.negative和sample可根据训练结果进⾏微调,sample表⽰更⾼频率的词被随机下采样到所设置的阈值,默认值为1e-3。6.hs=1表⽰层级softmax将会被使⽤,默认hs=0且negative不为0,则负采样将会被选择使⽤。7.workers控制训练的并⾏,此参数只有在安装了Cpython后才有效,否则只能使⽤单核。详细参数说明可查看word2vec源代码。2、训练后的模型保存与加载
model.save(fname)
model = Word2Vec.load(fname)
3、模型使⽤(词语相似度计算等)
model.most_similar(positive=['woman', 'king'], negative=['man']) #输出[('queen', 0.50882536), ...]
model.doesnt_match(\"breakfast cereal dinner lunch\".split()) #输出'cereal'
model.similarity('woman', 'man') #输出0.73723527
model['computer'] # raw numpy vector of a word
#输出array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)
其它内容不再赘述,详细请,⾥⾯讲的很详细。
以上这篇对Python中gensim库word2vec的使⽤详解就是⼩编分享给⼤家的全部内容了,希望能给⼤家⼀个参考,也希望⼤家多多⽀持。
因篇幅问题不能全部显示,请点此查看更多更全内容