MoreRSS

site iconXiangyunHuang | 黄湘云修改

技术写作与交流,专注R语言和统计图形,活跃于中国R语言大会及统计之都。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

XiangyunHuang | 黄湘云的 RSS 预览

广义线性模型与 R 语言

2026-04-30 08:00:00

本文假定读者对简单线性模型(Simple Linear Models)已经比较熟悉了,在其他条件不变的情况下,当响应变量不是高斯分布,而是其他分布时,如何拟合模型呢?在 R 语言中,内置的函数 glm() 可以拟合响应变量的分布属于指数族的模型。这类模型单独取了个名字,叫广义线性模型(Generalized Linear Models)。典型的情况有这样一些,响应变量服从泊松分布、伯努利分布、二项分布、指数分布、伽马分布等。这些常见的分布都可以写成一个指数族(Exponential family)的统一形式,如下。

值得一试的 gglite 包

2026-04-18 08:00:00

数据可视化方面,我可是用过不少的 R 包,在生产实践上,大量使用的 R 包是 plotly 包,自己出于兴趣又嫌 plotly 包太笨重,遂在本博客网站上,大量使用 echarts4r 包。

R 语言中使用 Spark

2026-04-13 08:00:00

在生产环境中,数仓团队根据业务需求,生产一张张表(明细表 detail、维度表 dim、主题表 topic、聚合表 aggr、应用表 app),落在 Hive 管理的数据仓库中。Spark 是大规模分布式计算引擎,将数据加载到内存中进行计算。在大规模复杂的计算中,会用到 Hive SQL 或 Spark SQL,前者内存资源需求少但计算慢,后者吃内存资源但计算更快。