400-133-4367

网站建设 APP开发 小程序

KNOWLEDGE/知识

分享你我感悟

您当前位置> 首页 > 知识 > 软件开发

富达登录-行业动态Python进行网页文本处理

发表时间:2020-10-06 10:44:44

文章作者:小编

浏览次数:

富达娱乐登录页文本中的中英文处理的区别在于中文需要额外加入分词处理进程。所谓分词就是将一段富达娱乐登录文本文字分成一个个词组的进程。 详细处理流程为:加载jieba分词包进行中文分词;将分词后的词组去掉停用词及一个字符的词后, 输出练习文本中的常用分词和了解的词组;在练习文本的数据练习及情感词典的归档中将爬取获得的网页数据的客观性文本分词后放入变量中, 片面类情感文本放入另一变量中;为主动得到网页文本中重要的关键词组, 过滤掉对网页文本含义贡献不大的常用词组, 在富达娱乐登录chi2模块的特征选择下, 选用词频-逆文本频率 (TF-IDF) 概念将分词词组变量转换为tf-idf向量形式, 输出分词向量矩阵, 为下一阶段的网页文本情感分析做准备。


相关案例查看更多