91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小:
    文件類型: .zip
    金幣: 1
    下載: 0 次
    發布日期: 2023-07-02
  • 語言: Matlab
  • 標簽: 文本聚類??matlab??

資源簡介

基于停用詞的文本預處理及其聚類(matlab)

資源截圖

代碼片段和文件信息

clear;
doc_N=20;??%前N篇文章
%%%%%%%%%%%%%%%考慮詞性預處理
stopwords_table=?textread(‘.\stopwords.txt‘‘%s‘‘delimiter‘‘\n‘‘whitespace‘‘‘);%讀取停用詞表


%讀取預處理的文本
pre=cell(1doc_N);term=[];prePosTag=cell(1doc_N);j=1;
for?i=10:(10+doc_N-1)
????%path=[‘.\實驗文本\編程小文本測試\spit_‘?int2str(i)?‘.txt‘];%文件路徑?----注意參數N_tic的設置
????path=[‘.\實驗文本\訓練文本\C000008\spit_‘?int2str(i)?‘.txt‘];%文件路徑?----注意參數N_tic的設置
????file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938);???%讀取預處理的文本
????pre{j}=file;
????term=strcat(termpre{j});%獲得詞項
????j=j+1;
end

for?i=10:(10+doc_N-1)
????%path=[‘.\實驗文本\編程小文本測試\spit_‘?int2str(i)?‘.txt‘];%文件路徑?----注意參數N_tic的設置
????path=[‘.\實驗文本\訓練文本\C000010\spit_‘?int2str(i)?‘.txt‘];%文件路徑?----注意參數N_tic的設置
????file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938);???%讀取預處理的文本
????pre{j}=file;
????term=strcat(termpre{j});%獲得詞項
????j=j+1;
end

for?i=10:(10+doc_N-1)
????%path=[‘.\實驗文本\編程小文本測試\spit_‘?int2str(i)?‘.txt‘];%文件路徑?----注意參數N_tic的設置
????path=[‘.\實驗文本\訓練文本\C000013\spit_‘?int2str(i)?‘.txt‘];%文件路徑?----注意參數N_tic的設置
????file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938);???%讀取預處理的文本
????pre{j}=file;
????term=strcat(termpre{j});%獲得詞項
????j=j+1;
end

term=rid_stopwords(termstopwords_table);?%去掉冗余詞
term=textscan(term{1}‘%s‘);?%將字符串轉換成cell元組
term=unique(term{1});??%獲得term詞項表term


%統計term-doc矩陣
term_doc=zeros(doc_Nsize(term1));?%建立term-doc矩陣
for?i=1:size(pre2)
????for?j=1:size(term1)
????????temp=findstr(pre{i}{1}term{j});????%通過term詞項在處理過的文本中查找
????????if(~isempty(temp))
????????term_doc(ij)=size(temp2);??%統計詞頻
????????end
????end
end

%計算tfidf
fea?=?tfidf(term_doc);

%聚類
kmeans(fea3)


?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????目錄???????????0??2013-10-30?10:27??基于停用詞的文本預處理及其聚類\bagging實驗\
?????文件????????1481??2013-10-30?10:31??基于停用詞的文本預處理及其聚類\bagging實驗\mybagging.m
?????文件????????5731??2013-10-30?10:27??基于停用詞的文本預處理及其聚類\bagging實驗\seeds.mat
?????文件????????9511??2013-10-30?10:27??基于停用詞的文本預處理及其聚類\bagging實驗\seeds.txt
?????文件????????1909??2013-10-23?13:03??基于停用詞的文本預處理及其聚類\mainTextPreprocess.m
?????文件?????????324??2013-10-22?22:32??基于停用詞的文本預處理及其聚類\rid_stopwords.m
?????文件???????15567??2013-10-23?13:00??基于停用詞的文本預處理及其聚類\stopwords.txt
?????文件????????2149??2013-10-22?16:21??基于停用詞的文本預處理及其聚類\tfidf.m
?????文件?????????200??2013-10-22?17:24??基于停用詞的文本預處理及其聚類\讀我.txt
?????目錄???????????0??2014-04-11?10:02??基于停用詞的文本預處理及其聚類\實驗文本\
?????目錄???????????0??2014-04-11?10:02??基于停用詞的文本預處理及其聚類\實驗文本\編程小文本測試\
?????文件?????????206??2013-10-28?22:08??基于停用詞的文本預處理及其聚類\實驗文本\編程小文本測試\批處理改名.bat
?????目錄???????????0??2013-10-22?17:16??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\
?????目錄???????????0??2013-10-23?12:38??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\
?????文件????????5655??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_10.txt
?????文件?????????811??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_11.txt
?????文件????????2457??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_12.txt
?????文件????????1639??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_13.txt
?????文件????????1920??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_14.txt
?????文件?????????672??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_15.txt
?????文件?????????632??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_16.txt
?????文件????????6976??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_17.txt
?????文件????????1105??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_18.txt
?????文件?????????639??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_19.txt
?????文件????????8205??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_20.txt
?????文件????????8363??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_21.txt
?????文件????????1513??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_22.txt
?????文件?????????412??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_23.txt
?????文件?????????376??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_24.txt
?????文件????????2118??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_25.txt
?????文件?????????788??2013-10-10?17:37??基于停用詞的文本預處理及其聚類\實驗文本\訓練文本\C000008\spit_26.txt
............此處省略155個文件信息

評論

共有 條評論