参考了其它语言的并行实现方法,包括:
- Tomas Mikolov的C实现 Google Code
- jdeng的C++实现 GitHub
- piskvorky的Python实现 GibHub
- ansj的Java实现 GitHub
使用Java 7编写,读取的语料需先行分词完毕,并以空格分隔,由于低频词(<5)会被过滤,故建议使用较大的文本数据集。,例子见TestWord2Vec
write in Java 7, the word in input text should be segmented by one space。This program will filter the low frequency(<5) word, so please use large text dataset. Demo can be found in TestWord2Vec