Python 数据可视化 13 | 使用 Seaborn 可视化全球的疫情数据
2020 年的一场疫情,改变了太多事情,我们也改变了许多看法,也提醒了我们需要多珍惜眼前拥有的东西。
接下来我们来使用 Seaborn 来可视化一下目前的疫情数据,了解一下现在全球的疫情怎么样了。
获取疫情数据
GitHub 有一个仓库,可以获取到最新的疫情数据,在 这里 可以获取到疫情的最新数据,数据来源于丁香医生。
我们可以通过 pandas 的 read_csv 来通过链接获取 csv 中的数据:
pd.read_csv(url)
你也可以直接下载文件到本地读取:
获取地区的数据,得到的 DataFrame 是这样的:
这里有从洲到国家到具体省的详情数据。
当然,也提供了疫情数据接口,我们可以通过 requests 的 get 请求相关的数据。
知道了如何获取数据之后,接下来我们逐个分析:
可视化疫情数据
获取全球的疫情数据,然后使用 pandas 转化为 DataFrame:
数据清洗
格式化时间
可以看到这里的数据有点问题:
我们将时间戳转化为标准的时间格式,注意这里的单位应该是 ms:
得到的时间:
可以通过 info 来查看 DataFrame 的信息:
数据去重
有一些国家数据重复了,我们可以使用 drop_duplicates 来去重:
数据分组
接着我们对不同的洲进行数据分组,可以使用 groupby 方法,将得到的数据求和:
去除不必要的列:
可视化确诊数量
接着我们使用 Seaborn 来根据确诊数量进行可视化:
这里的字体我用的是系统自带的:AR PL UKai CN,为了避免
本文隐藏内容 登陆 后才可以浏览
关于疫情数据还有一些可视化的地方,比如地图相关可视化,会在下篇使用 pyecharts 可视化数据的时候进一步介绍,上面的代码已经上传到 Github 。