Python 数据可视化 13 | 使用 Seaborn 可视化全球的疫情数据

2020 年的一场疫情,改变了太多事情,我们也改变了许多看法,也提醒了我们需要多珍惜眼前拥有的东西。

接下来我们来使用 Seaborn 来可视化一下目前的疫情数据,了解一下现在全球的疫情怎么样了。

获取疫情数据

GitHub 有一个仓库,可以获取到最新的疫情数据,在 这里 可以获取到疫情的最新数据,数据来源于丁香医生。

我们可以通过 pandas 的 read_csv 来通过链接获取 csv 中的数据:

pd.read_csv(url)

你也可以直接下载文件到本地读取:

获取地区的数据,得到的 DataFrame 是这样的:

这里有从洲到国家到具体省的详情数据。

当然,也提供了疫情数据接口,我们可以通过 requests 的 get 请求相关的数据。

知道了如何获取数据之后,接下来我们逐个分析:

可视化疫情数据

获取全球的疫情数据,然后使用 pandas 转化为 DataFrame:

数据清洗

格式化时间

可以看到这里的数据有点问题:

我们将时间戳转化为标准的时间格式,注意这里的单位应该是 ms:

得到的时间:

可以通过 info 来查看 DataFrame 的信息:

数据去重

有一些国家数据重复了,我们可以使用 drop_duplicates 来去重:

数据分组

接着我们对不同的洲进行数据分组,可以使用 groupby 方法,将得到的数据求和:

去除不必要的列:

可视化确诊数量

接着我们使用 Seaborn 来根据确诊数量进行可视化:

这里的字体我用的是系统自带的:AR PL UKai CN,为了避免

本文隐藏内容 登陆 后才可以浏览

关于疫情数据还有一些可视化的地方,比如地图相关可视化,会在下篇使用 pyecharts 可视化数据的时候进一步介绍,上面的代码已经上传到 Github 。

发表回复