資源簡介
該資源主要參考我的博客:word2vec詞向量訓(xùn)練及中文文本相似度計(jì)算
http://blog.csdn.net/eastmount/article/details/50637476
其中包括C語言的Word2vec源代碼(從官網(wǎng)下載),自定義爬取的三大百科(百度百科、互動百科、維基百科)中文語料,涉及到國家、景區(qū)、動物和人物。
同時包括60M的騰訊新聞?wù)Z料,是一個txt,每行相當(dāng)于一個新聞。
國家包括了Python的Jieba分詞代碼,詳見博客。
免費(fèi)資源希望對你有所幫助~
代碼片段和文件信息
評論
共有 條評論