2026-05-02 08:00:00
这是一道 2019 年的某公司笔试题,面试官要求用不少于 5 种统计模型来建模,在三天内完成并给一个展示。不过,本文仅给出探索分析和广义线性模型的结果,算是前一篇广义线性模型和指数族的应用。
2026-04-30 08:00:00
本文假定读者对简单线性模型(Simple Linear Models)已经比较熟悉了,在其他条件不变的情况下,当响应变量不是高斯分布,而是其他分布时,如何拟合模型呢?在 R 语言中,内置的函数 glm() 可以拟合响应变量的分布属于指数族的模型。这类模型单独取了个名字,叫广义线性模型(Generalized Linear Models)。典型的情况有这样一些,响应变量服从泊松分布、伯努利分布、二项分布、指数分布、伽马分布等。这些常见的分布都可以写成一个指数族(Exponential family)的统一形式,如下。
2026-04-18 08:00:00
数据可视化方面,我可是用过不少的 R 包,在生产实践上,大量使用的 R 包是 plotly 包,自己出于兴趣又嫌 plotly 包太笨重,遂在本博客网站上,大量使用 echarts4r 包。
2026-04-15 08:00:00
中国政府部门统计数据发布网站
| 海南省 | 广西省 | 湖南省 |
| 湖北省 | 河南省 | 山东省 |
| 江西省 | 江苏省 | 上海市 |
| 福建省 | 安徽省 | 贵州省 |
| 河北省 | 天津市 | 重庆市 |
| 浙江省 | 吉林省 | 辽宁省 |
| 四川省 | 宁夏 | 青海省 |
| 内蒙古 | 陕西省 | 新疆 |
| 黑龙江省 | 吉林省 | 北京市 |
| 国家统计局 | 中国人民银行 |
2026-04-13 08:00:00
在生产环境中,数仓团队根据业务需求,生产一张张表(明细表 detail、维度表 dim、主题表 topic、聚合表 aggr、应用表 app),落在 Hive 管理的数据仓库中。Spark 是大规模分布式计算引擎,将数据加载到内存中进行计算。在大规模复杂的计算中,会用到 Hive SQL 或 Spark SQL,前者内存资源需求少但计算慢,后者吃内存资源但计算更快。
2026-04-13 08:00:00
数据集 cars 来自 Base R 内置的 datasets 包,仅有两个变量 speed (单位:英里/每小时)和 dist(单位:英尺),1 英里约等于 1.6 公里,1 英尺约等于 30.48 厘米。下表展示了数据集 cars 的部分内容。