当前位置:首页 > 问答百科 > 正文内容

什么是标签云(不会制作词云图)

福瑞号2022-12-03 19:38:07问答百科142
编辑导语:云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。如今,越来越多的文章开始使用词云图来展示信息。如此便利的信息展示形式,你还不会制作吗?
什么是标签云(不会制作词云图)-图1
词云图是数据可视化的一种常见形式,特别适合于文本数据的处理和分析,今天就来大略谈谈词云图。
什么是标签云(不会制作词云图)-图2
一、什么是词云图
“词云”的概念最早是美国西北大学新闻学副教授、新媒体专业主任里奇戈登(Rich Gordon)提出的。
词云(Word Cloud),又称文字云、标签云(Tag Cloud)、关键词云(Keyword Cloud),是文本数据的一种可视化展现方式,它一般是由文本数据中提取的词汇组成某些彩色图形。
词云图的核心价值在于以高频关键词的可视化表达,来传达大量文本数据背后的有价值的信息。
以央视网对浦东开发开放30周年庆祝大会的新闻报道为例(网址:https://news.cctv.com/2020/11/12/ARTIZeNIAERfxwqaQdNVIZOa201112.shtml),用在线词云制作工具易词云对该网页上的文本数据进行处理,得到了下图1所示的词云图。
什么是标签云(不会制作词云图)-图3
图1 词云图示例
由上可见,词云图是由词汇、颜色、字体大小和图形四个要素构成的,它浓缩了文本数据的内容,通过文字、色彩、图形的搭配,产生了有冲击力地视觉效果。
词云图直观的表示了每个词汇在相应文本数据中的词频分布,通过使用不同的颜色和大小来表示不同级别的相对重要性,字体越大越显眼,对应的词汇被提及频率越高。
词云图过滤掉了大量的文本信息,使网页浏览者只要一眼扫过词云图就可以大致领略到文本所表达的主旨。
二、词云图有何特点
词云图作为对文本数据的一种再加工方式,本身存在一些优势,但也有一些不足之处。笔者认为,词云图有四个优点和四个缺点:
1. 四个优点
视觉上更有冲击力:词云图比条形图、直方图和词频统计表格等更有吸引力,视觉冲击力更强,一定程度上迎合了人们快节奏阅读的习惯;内容上更直接:词云图本身是对文本内容的高度浓缩和精简处理,能更直观的反映特定文本的内容,在一定程度上能节省读者时间,让读者在短时间内对文本数据的主要信息做到一目了然;应用范围广:词云图可以作为一种分析工具应用到用户画像、舆情分析等场景下,还可以直接嵌入到PPT报告、数据分析类产品、可视化大屏中,是对文本数据价值变现的一种手段;制作门槛低:制作词云图的难度不高,没有数据处理技术背景的人也能做出有效的词云图来。
2. 四个缺点
区分度不足:词云图对词汇的表达采取的“抓大放小”的处理方式,对于词频相差较大的词汇有较好的区分度,但对于颜色相近、出现频率差不多的词汇的区分效果不是很好;输出无统一标准:受制于分词技术、算法、词库质量等因素,不同的人对于同一文本数据,采取不同的词云图生成方式和图案,得到的词云图可能会有较大差异,有时候可能出现一些乱码,影响词云图的输出效果;信息缺失问题:词云图对高频词汇能做到突出化处理,让高频词汇占据C位,但是对于大量低频词汇或者长尾型词汇所传递的信息不能做很好的表达,再加之这类词汇大多字体偏小,可能会让读者忽略掉部分信息。对于有特定要求的或者关注某些细节的读者来说,词云图可能无法满足他们的需求;内容表达缺乏逻辑性:词云图是由各类词汇在空间上按一定图形组合而形成的,这些词汇都是从有逻辑结构的文本数据中拆分出来的,从文字变成了图形后,再呈现出来的内容失去了内在的逻辑结构,需要读者将高频词汇串联起来形成联想才能获取到信息。
三、词云图如何制作
制作词云图这件事情并不复杂,通常需要经过数据准备、分词处理、图形输出三个步骤。
第一步要做的是准备一份文本数据,要求文本数据中没有图片或音视频文件及其链接;第二步需要对准备好的数据进行分词处理,提取其中的关键词,并做词频统计;最后一步就是选择合适的图案,做要输出的图形进行个性化配置,生成想要的词云图。
从实现方法来看,制作词云图通常可以分为三种方法:借助在线工具、应用专门的软件、编程实现。
第一种方法:借助在线工具,也就是在网页上就能完成词云图的制作和输出。目前支持在线制作词云图的网站有:WordArt、Wordiout、微词云、易词云、美寄词云等;第二种方法:直接使用有词云图制作功能的软件,比如:FineBI、Tableau、SmartBI、BDP等,词云图只是这些软件的一个小功能;第三种方法:通过编程来实现词云图,常用的编程语言有Python和R。对于有编程技术基础的朋友,可以自行用Python等制作词云图,对于没有编程基础的朋友采取前两种方法,这两种方法操作起来比较容易,有兴趣的朋友可以亲自尝试一下,笔者在这里就不一一介绍了。
本文由 @黄小刚 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议

扫描二维码推送至手机访问。

版权声明:本文由福瑞号发布,如需转载请注明出处。

本文链接:http://furui.com.cn/9528.html

“什么是标签云(不会制作词云图)” 的相关文章

什么叫干股(什么叫干股)

什么叫干股(什么叫干股)

“干股”是一种别名,干股股东又被称作影子股东,就是指不实际注资或用劳务、信用、普通合伙人名字、信誉等不符合《公司法》要求注资方式的因素注资,而占有企业一定百分比的股权的公司股东。 最开始干股在新经济时代社会经济发展中,被看作是公司老板为维护保养公司利益,因此来挽留想要离开公司的重要专业技术员和合作...

等额选举和差额选举是什么意思(【组工讲堂】换届选举中的差额选举和等额选举是怎么一回事)

等额选举和差额选举是什么意思(【组工讲堂】换届选举中的差额选举和等额选举是怎么一回事)

来源:共产党员网 审核:胡建国 编辑:吴佐政 杨庆鑫 点击加入“奈曼党建”微信公众平台,共同关注“奈曼党建”相关要闻。 原标题:《【组工讲堂】换届选举中的差额选举和等额选举是怎么一回事?》...

什么是三线表(论文写作规范指南出炉)

什么是三线表(论文写作规范指南出炉)

学术论文就是用文字、数字和图表等,将有关科学研究的过程、方法和结果,用书面的方式向其他人公布的一种信息传递形式。从形式上看,一般的学术论文要包括以下几个部分:标题、摘要、关键词、序论、正文(本论)、结论、致谢、参考文献等。 一、标题 标题是文章的旗帜和眼目,它服务于揭示主题,体现文章的中心内容。要在...

拼多多免密支付怎么关掉(拼多多如何关闭免密支付)

拼多多免密支付怎么关掉(拼多多如何关闭免密支付)

进入拼多多免密支付设置,依次点击关闭微信、多多钱包以及支付宝免密支付即可。具体操作如下:打开拼多多个人中心,点击设置,选择免密支付设置,依次点击关闭微信、多多钱包以及支付宝免密支付功能即可,关闭成功后即可关闭拼多多的免密支付。 本次演示手机为华为nova8,操作系统harmonyos2.0.0.2...

高铁速度多少(设计时速350公里)

高铁速度多少(设计时速350公里)

  11月17日8时20分   随着55301次试验列车   从济南东站开出   济南至莱芜高速铁路   正式进入运行试验阶段   线路开通运营进入倒计时   济莱高铁位于山东省济南市,线路全长117.49公里,设计时速350公里。全线共设济南东、历城、章丘南、雪野、莱芜北、钢城6座车站,通过济南...