400-133-4367

网站建设 APP开发 小程序

KNOWLEDGE/知识

分享你我感悟

您当前位置> 首页 > 知识 > 网站建设

富达官网-Python进行网页文本处理

发表时间:2020-10-08 11:45:09

文章作者:小编

浏览次数:

富达官网网页文本中的中英文处理的区别在于中文需求额外参加分词处理进程。所谓分词便是将一段富达官网文本文字分红一个个词组的进程。具体处理流程为:加载jieba分词包进行中文分词;将分词后的词组去掉停用词及一个字符的词后, 输出练习文本中的常用分词和熟悉的词组;在练习文本的数据练习及情感词典的归档中将爬取取得的网页数据的客观性文本分词后放入变量中, 主观类情感文本放入另一变量中;为自动得到网页文本中重要的关键词组, 过滤掉对富达官网网页文本含义贡献不大的常用词组, 在chi2模块的特征挑选下, 采用词频-逆文本频率 (TF-IDF) 概念将分词词组变量转换为tf-idf向量方式, 输出分词向量矩阵, 为下一阶段的网页文本情感剖析做准备。

相关案例查看更多