AnZhihe | 安志合的 RSS 预览

英伟达算力GPU主要型号及参数

2025-12-13 05:47:06

1. A100：数据中心AI计算的奠基石

A100是英伟达2020年发布的旗舰级数据中心GPU，基于Ampere架构，主要特性包括：

架构：Ampere
CUDA核心数：6912
Tensor核心：432
显存：40GB/80GB HBM2e
带宽：1.6TB/s
NVLink支持：可连接多个GPU以扩展算力
应用场景：深度学习训练、推理、科学计算、大规模数据分析

A100可广泛应用于高性能计算（HPC）和深度学习任务，适用于需要大量计算资源的企业级用户。

2. H100：性能提升的算力王者

H100是A100的升级版，采用更先进的Hopper架构，相比A100提升了数倍的计算性能，主要特性包括：

架构：Hopper
CUDA核心数：16896
Tensor核心：528
显存：80GB HBM3（带宽高达3.35TB/s）
NVLink支持：支持高带宽互联
Transformer Engine：专门优化AI大模型训练，如GPT-4
应用场景：大规模AI训练、HPC、企业级AI推理

H100特别适用于大型AI模型训练，比如Llama、GPT、Stable Diffusion等，可以大幅提升训练效率。

3. A800 & H800：中国市场专供版

A800和H800是英伟达专为中国市场推出的受限版GPU，以符合美国的出口管制要求：

A800：基于A100，限制了NVLink互联带宽，适合AI推理和训练
H800：基于H100，限制了带宽，但仍然保留了较高的计算能力，适用于大型AI训练

这些GPU主要面向中国客户，如阿里云、腾讯云、百度云等云计算厂商，性能稍逊于A100和H100，但仍然具备极高的计算能力。

4. H20：新一代受限算力GPU

H20是英伟达为中国市场设计的新一代受限版H100，预计将取代H800：

架构：Hopper
显存：未知（预计64GB+）
带宽：受限
计算性能：介于A800和H800之间

H20仍然具备强大的算力，适用于AI训练和推理，但具体性能指标需等待正式发布后确认。

二、如何搭建自己的算力中心？

如果你想搭建自己的算力中心，无论是用于AI训练，还是进行高性能计算，都需要从以下几个方面考虑：

1. 确定算力需求

首先需要明确你的算力需求：

AI训练：大规模深度学习训练（如GPT、Transformer）推荐H100或H800
AI推理：推荐A100、A800，推理对带宽要求较低
科学计算 & HPC：H100最优，A100次之
中小规模计算：可以考虑A800、H800或H20

2. 选择GPU服务器

你可以选择以下方式搭建你的GPU算力中心：

单机GPU服务器：

适合中小企业或个人开发者
选择如 DGX Station A100/H100，单机最多4-8张GPU

GPU集群：

适合企业级部署
可使用 DGX A100/H100 服务器，支持多台GPU互联
通过InfiniBand和NVLink构建大规模集群

3. 搭配高性能计算环境

CPU：推荐使用AMD EPYC 或 Intel Xeon 服务器级CPU
内存：建议最低256GB，AI训练需要大量内存
存储：SSD + 高速NVMe存储（如1PB级别）
网络：支持InfiniBand和100GbE以上高速网络

4. 软件环境搭建

操作系统：Ubuntu 20.04 / 22.04 LTS，或基于Linux的服务器环境
驱动与CUDA：安装最新的NVIDIA驱动，CUDA 11+（H100支持CUDA 12）
AI框架：

PyTorch / TensorFlow
NVIDIA Triton 推理服务器
cuDNN / TensorRT

如果对数据隐私和持续算力需求较高，建议选择本地搭建GPU集群。

三、训练场景 vs 推理场景

在AI训练（Training）和AI推理（Inference）场景下，不同GPU的性能表现存在明显差异。主要区别体现在计算精度、带宽需求、显存优化以及核心架构等方面。以下是详细对比：

训练 vs. 推理：性能对比

训练 vs. 推理：性能解析

1. 计算精度（数值格式）

在AI计算中，不同的数值格式影响计算速度和精度：

训练需要高精度计算（如 FP32、TF32、FP16）
推理需要低精度计算（如 INT8、FP16），以提升计算吞吐量

数值格式	适用场景	精度	计算速度	备注
FP32	AI训练	高	慢	经典浮点计算格式
TF32	AI训练	较高	快	H100支持，兼顾速度和精度
FP16	训练 & 推理	中	快	适合加速AI计算
INT8	AI推理	低	极快	适用于部署阶段，提高吞吐量

H100 特别优化了 Transformer Engine，在 FP8/FP16 下可大幅提升 AI 训练和推理性能，适用于 LLM（大语言模型）如 GPT-4。

2. 显存带宽

训练任务 通常需要处理大规模数据，因此高显存带宽至关重要：

H100（HBM3，3.35TB/s） → 训练速度比 A100 快 2-3 倍
A100（HBM2e，1.6TB/s） → 适合标准 AI 任务
H800/A800 由于带宽受限，训练效率比 H100 低

推理任务 一般不需要大带宽，因为：

数据已训练完成，只需加载模型进行计算
推理更关注 吞吐量（TPS） 和 延迟（Latency）

3. 并行计算 & 计算核心优化

AI训练 依赖 矩阵计算（Tensor Cores），需要强大的 FP16/TF32 计算能力
AI推理 需要高效的 INT8/FP16 计算，以提高吞吐量

在计算核心优化上：

GPU型号	训练核心优化	推理核心优化
A100	Tensor Core优化，FP16/TF32 训练	支持 INT8，推理较强
H100	Transformer Engine ，优化LLM训练	INT8/FP8 计算，极高推理吞吐量
A800	限制版 Tensor Core	适用于中等推理任务
H800	Hopper架构优化	适用于大规模推理
H20	受限 Hopper架构	适用于中等推理任务

H100 在 Transformer-based AI 任务（如 GPT）中比 A100 快 6 倍，而推理吞吐量也更高。

小结

AI训练： 需要高带宽 + 高精度计算，推荐 H100/A100 及其变种
AI推理： 需要低延迟 + 高吞吐量，推荐 H100/H800/H20
H100 在Transformer模型训练 和 推理吞吐量 方面遥遥领先
A100/A800 仍然是中等预算下的优秀选择

未来，随着 H20 逐步普及，它可能成为中国市场AI训练和推理的首选。

四、算力中心投资成本估算

根据GPU型号，搭建算力中心的成本会有所不同：

A100：单卡价格 ~$10,000
H100：单卡价格 ~$30,000
A800/H800：价格略低于A100/H100
H20：待定，但预计比H800便宜

一个基础的4张H100服务器可能需要20万-50万美元，而大型AI训练集群（如64张H100）则可能超过千万美元。

小结：如何选择合适的算力架构？

预算有限？ 选择 A100、A800、H800
追求顶级算力？ 选择 H100 或 H800
云端还是本地？ 云端适合短期任务，本地适合长期需求
数据隐私？ 关键业务建议本地部署

附：

以太网

交换机

转载自公众号：ittbank，原文链接：https://mp.weixin.qq.com/s/8Rdw6b3rMo_G46w6blAGbQ

参考：

常用AI模型介绍及多模型组合使用场景

2025-12-08 05:37:51

常用AI模型介绍及TEI模型推理框架

bge-m3模型是一种先进的文本嵌入模型，能够将文本转换为高维向量，从而实现高效的文本相似度计算、分类等任务。

bge-reranker-v2-m3是一个轻量级的重排序模型，具有强大的多语言能力，易于部署，推理速度快。

TEI（全称：Text Embeddings Inference）是由Huggingface推出的高性能推理框架，旨在简化和加速文本嵌入（Embedding）和重排序（Reranker）模型在生产环境中的部署。TEI支持基于HTTP和gRPC协议的服务接口，能够高效处理文本嵌入的生成和基于文本相关性的重排序等任务；TEI框架同时也支持多种嵌入模型和重排序模型，并提供了灵活的请求批处理、模型管理和动态调度功能。通过TEI，开发者可以轻松地扩展和优化文本嵌入和重排序服务，以满足实时应用和批量处理的需求，特别适用于自然语言处理相关的在线推理任务，能够满足RAG（全称：Retrieval-Augmented Generation）、信息检索 (IR)、自然语言理解 (NLU)、文本分类以及个性化推荐系统等下游应用场景。

简单来说，BGE系列是处理文本的"专家"，而LLM和VLM是内容"生成者"，TEI和vLLM则是让这些模型高效运行的"发动机"。下面这个表格可以让我们快速了解它们各自的特点和角色。

模型/框架名称	核心功能与特点	开发者/来源	典型应用场景
BGE-M3	文本嵌入模型：将文本转换为向量。支持密集检索、多向量检索和稀疏检索。多语言(100+)，处理长文档(最长8192 token)。	BAAI	文本相似度计算、语义搜索、作为RAG系统的检索器。
BGE-Reranker-v2-M3	重排序模型：对检索结果进行精排。基于BGE-M3，具备强大跨语言能力，模型轻量，推理速度快。	BAAI	在RAG、搜索引擎中优化检索结果，提升Top结果的相关性。
Text Embeddings Inference (TEI)	嵌入模型推理框架：专为部署文本嵌入和重排序模型设计的高性能框架。支持HTTP/gRPC协议。	Hugging Face	用于生产环境，高并发、低延迟地提供嵌入向量生成和重排序服务。
Large Language Model (LLM)	大语言模型：理解和生成人类语言。参数规模巨大，能力广泛（文本生成、翻译、总结等）。	OpenAI等多家机构	作为RAG系统、对话机器人的生成核心，进行内容创作、问答等。
vLLM	LLM推理和服务框架：核心是PagedAttention技术，实现高吞吐量的LLM推理。兼容OpenAI API。	UC Berkeley	用于生产环境，高效、低成本地部署和服务各类LLM。
Vision Language Model (VLM)	视觉语言模型：多模态模型，能同时处理图像、视频和文本信息，并生成文本响应。	NVIDIA等多家机构	视觉问答、图像/视频内容理解与总结、多模态对话。

将 Text Embeddings Inference (TEI) 和 vLLM 组合使用，是构建高性能生产级 AI 应用的一个非常出色的方案。简单来说，这个组合的核心思想是「让专业的工具做专业的事」：TEI 负责「理解」语义并进行检索，vLLM 负责「生成」高质量的文本。下面这个表格清晰地展示了两者在典型工作流（如RAG）中的核心分工与合作。

阶段	核心任务	推荐引擎	引擎优势
检索阶段	文本向量化、语义检索、结果重排序	Text Embeddings Inference (TEI)	为嵌入和重排序模型量身定制，高并发、低延迟。
生成阶段	基于检索到的上下文，生成流畅、准确的答案	vLLM	专精于文本生成，通过 PagedAttention 等技术实现高吞吐和低延迟的推理。

通用使用场景与组合策略

这些模型和工具在实际项目中，尤其是在构建复杂的AI应用时，常常协同工作。一个典型的例子是检索增强生成（RAG）系统，它能够结合外部知识库，让LLM生成更准确、信息更丰富的答案。

RAG Pipeline

如上图所示，检索排序模型是信息检索及RAG pipeline中的重要组成部分。与向量模型与稀疏检索模型相比，检索排序模型会利用更加复杂的判定函数以获得更加精细的相关关系。通常，系统会首先借助向量模型（BGE-M3-Dense）与稀疏检索模型（BGE-M3-Sparse）分别从向量数据库与倒排索引中初步获取粗粒度的候选文档（coarse-grained candidates）。紧接着，系统会进一步利用排序模型（BGE Re-Ranker）进一步过滤候选集，并最终获得精细的文档集（fine-grained candidates），以支持下游大语言模型完成检索增强任务（RAG）。

下图直观展示了一个增强型RAG系统的工作流程，其中也包含了引入视觉信息的可能性：

在这个流程中：

检索（Retrieval）：BGE-M3 模型为文档库生成嵌入向量并建立索引。当用户提问时，用它进行初步的语义检索，找出相关文档。如果问题涉及图像（例如“找出所有与图片描述相似的文档”），则可以先用VLM理解图像内容，生成描述文本，再将此文本交给BGE-M3进行检索。
精排（Reranking）：初步检索可能返回大量结果，使用 BGE-reranker-v2-m3 对结果进行重新评分和排序，筛选出最相关的几条，从而提升最终答案的质量。
生成（Generation）：将精排后的文档和用户问题一起构成提示词（Prompt），提交给由 vLLM 引擎服务的高性能 LLM，生成最终准确且丰富的答案。

在整个过程中，TEI 框架可以负责高效、稳定地部署和运行 BGE-M3 和 BGE-reranker 模型，确保检索和精排服务的性能与延迟满足要求。

参考：

NVIDIA GPU架构演进及使用场景

2025-12-01 05:27:22

在人工智能和深度学习领域，NVIDIA 凭借其强大的 GPU 产品线占据着举足轻重的地位。NVIDIA 拥有数十款功能各异的 GPU 产品，可用于部署和运行不同规模的机器学习模型，从边缘设备到大规模数据中心，几乎涵盖了所有应用场景。然而，NVIDIA GPU 的命名规则较为复杂，涉及架构代号（如 Ampere、Hopper）、性能等级（如 A100、A40）以及其他技术特征等多重维度，这使得用户在选择时容易感到困惑，同时也是不小的挑战。因此，了解NVIDIA GPU架构演进，充分理解这些不同显卡的核心参数、性能特征、成本效益，在实际需求场景使用时才能做出最佳选择。

在了解 NVIDIA GPU架构之前，我们先来简单了解下 NVIDIA GPU 的核心参数，这样能够更好地帮助我们了解这些 GPU 的差别和各自的优势。

CUDA Core：CUDA Core 是 NVIDIA GPU 上的计算核心单元，用于执行通用的并行计算任务，是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力，CUDA Core 指的是一个执行基础运算的处理元件，我们所说的 CUDA Core 数量，通常对应的是 FP32 计算单元的数量。
Tensor Core：Tensor Core 是 NVIDIA Volta 架构及其后续架构（如 Ampere 架构）中引入的一种特殊计算单元。它们专门用于深度学习任务中的张量计算，如[矩阵乘法]和卷积运算。Tensor Core 核心特别大，通常与深度学习框架（如 TensorFlow 和 PyTorch）相结合使用，它可以把整个矩阵都载入寄存器中批量运算，实现十几倍的效率提升。
RT Core：RT Core 是 NVIDIA 的专用硬件单元，主要用于加速光线追踪计算。正常数据中心级的 GPU 核心是没有 RT Core 的，主要是消费级显卡才为光线追踪运算添加了 RTCores。RT Core 主要用于游戏开发、电影制作和虚拟现实等需要实时渲染的领域。

NVIDIA GPU 讲解

NVIDIA GPU 架构的演进

NVIDIA GPU架构的演进是一部典型的"需求驱动创新"的历史。它从专注于图形渲染出发，逐步演变为承载通用计算和人工智能计算的强大引擎。为了对这段演进史有一个直观的整体认知，首先我们用GPU产品发布时间线来概括其核心里程碑：

接下来，我们来详细解读每一个架构的代际创新，以及它们如何塑造了今天的计算格局。

详细架构演进解读

架构代号	首发年份	核心创新与驱动因素	代表性产品	历史意义与定位
Tesla	2008	统一着色器模型；CUDA计算平台诞生	GeForce 8000系列；Tesla C/C/D系列	通用计算的破冰者：将GPU从纯粹的图形处理器转变为潜在的并行计算 accelerator。
Fermi	2010	首个为GPU计算设计的架构；ECC显存；更完善的GPU计算生态	GeForce 400/500系列；Tesla M/C系列	计算架构的奠基者：建立了GPU计算的可靠性和实用性，真正吸引了科学计算领域的目光。
Kepler	2012	追求能效比；动态并行；GPU直接通信	GeForce 600/700系列；Tesla K系列（如K80）	云数据中心的先驱：其低功耗设计使大规模GPU服务器部署成为可能，开启了云GPU服务。
Maxwell	2014	极致能效优化；大幅提升每瓦特性能	GeForce GTX 900系列（如GTX 980 Ti）	消费级市场的优化大师：证明了在性能提升的同时，功耗可以得到出色控制。
Pascal	2016	拥抱AI浪潮；NVLink高速互联；16nm工艺；HBM2显存	Tesla P100；GeForce GTX 10系列	AI计算的铺路者：为深度学习的爆发提供了关键的高速互联和大容量显存支持。
Volta	2017	专用AI核心；Tensor Cores；NVSwitch	Tesla V100；TITAN V	AI时代的革命者：专用硬件（Tensor Core）的引入，使AI训练和推理性能提升了数个量级。
Turing	2018	AI+光追融合；RT Cores；Tensor Cores下放消费级	GeForce RTX 20系列；Quadro RTX系列	图形技术的再革命：将实时光线追踪和AI降噪（DLSS）带入消费级市场，重塑了图形保真度标准。
Ampere	2020	统一AI与HPC；第三代Tensor Core；稀疏化；MIG	RTX 30系列；A100；A40	数据中心的主力军：在AI训练/推理、HPC和图形领域提供了前所未有的综合性能，是目前应用最广泛的架构之一。
Hopper	2022	专为巨型模型打造；Transformer引擎；第四代NVLink	H100；H200	超大规模AI的引擎：针对万亿参数模型的训练和推理进行了专门优化，确立了新一代数据中心的标准。
Ada Lovelace	2022	极致图形体验；第三代RT Core；DLSS 3	GeForce RTX 40系列；RTX 5000/6000 Ada	图形技术的再突破：通过光流加速器和AI帧生成，在图形领域实现了质的飞跃。
Blackwell	2024	超大规模AI与HPC；第二代Transformer引擎；芯片间高速互联	B100/B200；GB200	下一代计算平台：旨在支撑万亿参数模型的实时推理和持续训练，目标是降低超大规模AI的总拥有成本。

NVIDIA 技术架构

演进的核心驱动力

从上述演进历程中，我们可以清晰地看到几条主线：

从通用到专用

早期的架构（Tesla到Kepler）主要优化通用并行计算。
从Pascal开始，特别是Volta引入Tensor Core后，NVIDIA开始集成针对特定领域（尤其是AI）的专用硬件，实现了性能的飞跃。后来的RT Core也是同一思路在图形领域的体现。

对带宽和互联的极致追求

从GDDR5到HBM2/HBM2e/HBM3，显存带宽不断提升，以喂饱越来越多的计算核心。
互联技术从PCIe到NVLink/NVSwitch，再到Blackwell的芯片间高速互联，都是为了解决多GPU系统内部的数据传输瓶颈，这对于大规模AI训练至关重要。

能效比的持续优化

每一代架构都在寻求在给定的功耗下提供更高的性能，这是GPU能够进入从移动设备到超大规模数据中心的每一个角落的关键。

软件与硬件的协同进化

CUDA的诞生是这一切的基础。随着硬件演进，NVIDIA不断丰富其软件栈（cuDNN, TensorRT等），构建了无与伦比的软件生态护城河，使开发者能充分利用硬件能力。

总结

NVIDIA GPU架构的演进史，是一部从图形处理器到并行计算 accelerator 再到 AI引擎的进化史。其成功关键在于，它敏锐地捕捉到了AI这一未来趋势，并通过前瞻性的架构设计（专用核心）和强大的软件生态，牢牢抓住了时代机遇，最终确立了在人工智能计算领域的绝对领导地位。

NVIDIA 主流GPU核心参数速览

下表汇总了T4、V100、A40、A100、A800、H100、H200、H800和B100的主要规格，可以依据架构、显存、关键特性和典型应用场景这些维度进行横向对比。

GPU 型号	架构	显存	显存带宽	关键特性	典型应用场景
T4	Turing	16 GB GDDR6	320+ GB/s	低功耗(70W)，支持INT4/INT8精度，视频编解码能力强	AI推理、视频处理、边缘计算
V100	Volta	16/32 GB HBM2	900-1134 GB/s	首批Tensor Core GPU，强大的FP64双精度计算能力	科学计算、传统AI训练、高性能计算仿真
A40	Ampere	48 GB GDDR6	696 GB/s	强大的专业图形能力（第二代RT Core），支持vGPU虚拟化	专业图形渲染（光线追踪）、虚拟工作站、VR/AR
A100	Ampere	40/80 GB HBM2e	1.6-2.0 TB/s	第三代Tensor Core，支持MIG（多实例GPU），稀疏性优化	数据中心级AI训练与推理、HPC、大规模数据分析
A800	Ampere	40 GB HBM2e	1.6 TB/s	A100的替代型号，互联带宽调整以符合特定贸易法规	与A100类似，适用于AI、数据科学和HPC工作负载
H100	Hopper	80-94 GB HBM3	3.35-3.9 TB/s	专用Transformer引擎，第四代Tensor Core，支持FP8精度	大规模AI训练与推理（尤其大语言模型）、高性能计算
H200	Hopper	141 GB HBM3e	4.8 TB/s	H100的升级版，显存容量与带宽显著提升	超大规模AI模型（特别是LLM推理和训练）
H800	Hopper	80 GB HBM3e	3.35 TB/s	H100的替代型号，互联带宽调整以符合特定贸易法规	与H100类似，适用于大规模AI训练与推理
B100	Blackwell	192 GB HBM3e (预计)	8 TB/s (预计)	新一代架构，集成Transformer引擎，AI算力大幅提升	下一代超大规模AI与高性能计算

英伟达GPU参数速查表，请注意：以上GPU部分详细规格和特性可能仍在更新中，建议在决策前访问NVIDIA官方网站获取最权威和最新的数据。

如何根据场景选择GPU？

面对众多选项，您可以从以下几个方面考虑，找到最适合您业务的GPU：

1. 明确主要工作负载
不同的任务需要不同类型的计算资源。

大规模AI训练与推理：尤其是千亿参数级别的大语言模型（LLMs），需要极高的AI算力和大显存。H100、H200和未来的B100是为此设计的标杆。对于参数规模稍小的模型，A100和A800是性能与成本平衡的可靠选择。
AI推理：对于高并发、低延时的在线推理场景，T4凭借其低功耗和对INT8/INT4精度的支持，是性价比极高的选择。
高性能计算（HPC）与科学模拟：许多科学计算应用（如气候模拟、分子动力学）依赖强大的双精度（FP64）性能。V100和A100在此领域表现出色。
专业图形与渲染：如果需要强大的实时图形处理能力，用于虚拟制片、建筑可视化或虚拟工作站（vGPU），那么具备强大RT Core（光追核心）的A40是更合适的选择。
成本与合规性考量：A800和H800是A100和H100的特定版本，在互联带宽上有所调整以符合国际贸易法规。如果您的项目受此限制，它们是直接的替代选项。

2. 评估性能与规模需求

数据中心级：对于需要部署多GPU节点的大规模任务，应考虑支持NVLink和NVSwitch（提升多GPU互联带宽）的型号，如A100、H100。
虚拟化与多租户：如果需要在多个虚拟机（VM）之间共享GPU资源，务必选择支持NVIDIA vGPU或MIG（多实例GPU）技术的GPU。例如，A100和H100支持MIG，可以将单卡物理分割为多个独立实例；A40则支持vGPU，适合虚拟工作站场景。

总结与建议

简单来说，这几款GPU可以这样快速定位：

H100/H200/B100：追求极致AI算力，专为超大规模模型打造。
A100/A800：需要均衡的数据中心级性能，是经久考验的全能与性价比之选。
T4：专注于高能效的AI推理和视频处理。
V100：用于科学模拟等传统HPC或预算有限的AI项目。
A40：主要面向专业图形设计、渲染和虚拟化。

参考：

英伟达GPU参数速查表

2025-11-29 23:29:38

**◎NVIDIA GPU参数速查表** | 更新日期：20251129
GPU型号	产品架构	产品形态	算力情况，挂*为稀疏值	显存	显存带宽	GPU互联	详细参数
GB300	Blackwell Ultra	多芯组合，2个B300和1个Grace CPU	FP4：30/38.9P* FP8：10/20P* FP16：5/10P* TF32：2.5/5P*	576G HBM3e	16TB/s	Nvlink 2x1.8TB/s	查看
B300	Blackwell Ultra	SXM	FP4：15/17.5P?* FP8：4.5/9P* FP16：2.25/4.5P* TF32：1.12/2.25P* FP64：40T	288G HBM3e	8TB/s	Nvlink 1.8TB/s	查看
GB200	Blackwell	多芯组合，2个B200和1个Grace CPU	FP4：20/40P* FP8：10/20P* FP16：5/10P* TF32：2.5/5P* FP64：90T	384G HBM3e	16TB/s	Nvlink 2x1.8TB/s	查看
B200	Blackwell	SXM	FP4：9/18P* FP8：4.5/9P* FP16：2.25/4.5P* TF32：1.12/2.25P* FP64：40T	192G HBM3e	8TB/s	Nvlink 1.8TB/s	查看
B100	Blackwell	SXM	FP16：1.8/3.5P* TF32：0.9/1.8P* FP64：30T	192G HBM3e	8TB/s	Nvlink 1.8TB/s	查看
H20标准款	Hopper	SXM	INT8和FP8：296T FP16：148T TF32：59.8T	96G HBM3	4TB/s	NVlink 900GB/s	查看
H20大显存	Hopper	SXM	INT8和FP8：296T FP16：148T TF32：59.8T	141G HBM3e	4.8TB/s	NVlink 900GB/s	查看
H200	Hopper	SXM	FP8和INT8：1/2P* FP16：1/2P* TF32：495/989T* FP64：67T	141G HBM3e	4.8TB/s	Nvlink 900GB/s	查看
RTX 4090	Ada	PCIe	FP16：165T/330T* TF32:82.6/165.2T* 源于AutoDL官网	24G GDDR6x 新增48G	1TB/s	64GB/s	查看
RTX 4090D	Ada	PCIe	FP16：147/294T* TF32：73.54/147T* 源于AutoDL官网	24G GDDR6x	1TB/s	64GB/s	查看
RTX 5090	Blackwell	PCIe 5.0	FP16：210T/420T？ TF32：108T 源自网络，供参考	32G GDDR7	1.8TB/s	PCIe 128GB/s	查看
RTX 5090D	Blackwell	PCIe 5.0	FP16：150/297T*？ TF32：未找到源自网络，供参考	32G GDDR7	1.8TB/s	PCIe 128GB/s	查看
H100	Hopper	SXM	FP8和INT8：1/2P* FP16：1/2P* TF32：495/989T* FP64：67T	80G HBM3	3.35TB/s	Nvlink 900GB/s	查看
H100	Hopper	PCIe	FP16：0.8/1.6P* TF32：378/756T* FP64：51T	80G HBM3	2TB/s	PCIe 128GB/s	查看
H800	Hopper	SXM	FP16：1/2P* TF32：495/989T* FP64：1T	80G HBM3	3.35TB/s	Nvlink 400GB/s	查看
H800	Hopper	PCIe	FP16：0.8/1.6P* TF32：378/756T* FP64：0.8T	80G HBM3	2TB/s	PCIe 128GB/s	查看
A100	Ampere	SXM	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GHBM2e	2TB/s	Nvlink 600GB/s	查看
A100	Ampere	PCIe	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GB HBM2e	2TB/s	PCIe 64GB/s	查看
A800	Ampere	SXM	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GHBM2e	2TB/s	Nvlink 400GB/s	查看
A800	Ampere	PCIe	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GB HBM2e	2TB/s	PCIe 64GB/s	查看
L40S	Ada	PCIe	FP16：366/733T* TF32：181/366*	48G GDDR6x	864GB/s	64GB/s	查看
L40	Ada	PCIe	FP16：181/362T* TF32：90.5/181*	48G GDDR6x	864GB/s	64GB/s	查看
L20	Ada	PCIe	FP16：119.5T TF32：59.8T	48G GDDR6x	864GB/s	64GB/s	查看
A40	Ampere	PCIe	FP16：149.7/299.4* TF32：74.8/149.6*	48G GDDR6x	696GB/s	Nvlink 112GB/s PCIe 64GB/s	查看
L4	Ada	PCIe	FP16：121/242T* TF32：60.5/121*	24G GDDR6x	300GB/s	64GB/s	查看
L2	Ada	PCIe	FP16：96.5T TF32：48.3T	24G GDDR6x	300GB/s	64GB/s	查看
V100	Volta	PCIe	FP16：32.71T FP32：16.35T FP64：8.177T	16/32G HBM2	1.13TB/s	Nvlink 300GB/s PCIe 32GB/s	查看
T4	Turing	PCIe	FP16：65.13T FP32：8.141T FP64：254.4G	16G GDDR6x	320GB/s	32GB/s	查看

请注意：以上内容根据公开数据整理，建议在决策前访问NVIDIA官方网站获取最权威和最新的数据！

参考：

高效沟通(三)：沟通方式及技巧

2025-11-21 12:00:10

沟通方式

好的沟通方式有很多种，我主要介绍最常用的三种：尊重、倾听和情绪控制。

尊重

尊重对方在高效沟通中非常重要，也是一个很关键的前提。这里你需要记住以下两个原则。

我可以不同意你，但是会捍卫你说话的权利。即便在你不认同对方观点的情况下，也要尊重对方的表达，认真聆听，这个时候有可能你会发现不一样的东西，从而改变自己最初不准确的认知。
赢得对方的尊重需要先尊重对方。在你对他人表现出足够的尊重之后，同时你也能够赢得对方的尊重，他会更乐于跟你交谈，而且交流的内容也会更为细致和深入，从而实现良好的沟通效果。此外，在这样的背景下，当你和对方出现观点不一致的情况时，对方也会更乐于聆听你，并顺着你的思路去思考。

所以可以说，尊重对方并赢得对方尊重的沟通方式，通常会进行得比较深入，沟通效果也会很不错。

注意，尊重并不代表要低三下四、随声附和，做一个墙头草可以让别人很容易和你相处，但要赢得对方的尊重，这还远远不够，你一定要和对方有观点上的交互，甚至是碰撞。沟通的目的不是为了附和对方，而是产生一种更完整更全面的认知。只有当双方都愿意接受不同的观点时，此时的沟通才会迸发出更多的火花，而这一切都需要发生在相互尊重的基础之上。

倾听

《沟通的艺术》一书中将“倾听”定位为至少与“说”同等重要的沟通形式，足以见其重要性。作者认为，倾听与听或者听到有很大不同，它是解读别人所说信息的过程，包含听到、专注、理解、回应和记忆五大元素。

上面的说法有点高大上，我们还是实在一点。我们之所以要倾听，就是因为倾听可以让我们获得更多信息，对对方有更多的了解。倾听能让对方感觉到自己被尊重，所以才会跟你分享更多的信息。这其实是沟通中的高级技巧，因为当你掌握了对方很多信息时，你就可以了解这个人，也就对你越有利。所以，面试的时候，一般来说会面试的面试官基本上都不多说话，都是在听你讲，你讲的越多，他就了解你越多。那些电视里访谈类节目中的主持人都是很厉害的倾听高手，因为他们要挖到被采访人更多的信息。

你一定要学会倾听，掌握到更多的信息，因为掌握不了足够的信息就会信息不对称，信息不对称就会做出错误的假设。尤其是在谈判的时候，你觉得他的利益点是这个，而实际上他的利益点可能是另外一个。所以，倾听其实不仅仅只是听，还要思考，要思考更深层的原因，不要被表象所迷惑，才会有更高效率的沟通，这才有助于你做出正确的决定。

情绪控制

能否控制好自己的情绪对于沟通效果来说至关重要。如果动不动就生气或者心怀戒心，通常会令沟通很难进行，更不用说实现高效沟通。如果能控制好自己的情绪，时刻保持理性思考，这不仅会使所沟通问题得到顺利解决，而且能给对方留下好的印象，进而形成良好的人际关系。我们都会说某个人的 EQ 比较高，并不是说这个人很会说话，很会说话、有随机应变能力的人通常都是 IQ 高，EQ 高的人一般都是可以控制自己情绪的人。

具体该怎样做呢？我建议遵循以下两个原则。

不要过早或者过度打岔和反驳。倾听对方，即便有不同意见，也要耐心地听对方说完，不要打岔或反驳。断章取义是件非常可怕的事儿，因为当你听对方完整讲述完之后，很多时候会改变自己在聆听过程中的某些想法或者看法。此外，打断别人说话，是很不礼貌的事儿，次数多了，会给对方留下坏印象。
求同存异，冷静客观。每个人的知识储备不同，生长环境不同，经历和性格等也不同，所以看待和理解问题时，自然会有很大差异。所以，要懂得尊重这些差异，客观公正地思考问题，并给出相应的建议和看法。

切莫在冲动之下，说出很多一些过分或过激的话，因为言语的力量是巨大的，杀伤力有时难以预估。举一个有些极端的例子。假如你和铁哥们儿吵架了，对方一气之下，打了你两拳，你很有可能过两天就忘记了。但是如果对方说了几句伤你心的话，这种伤心则有可能会持续很久很久，甚至你们可能会因此而绝交。

人是有情感的动物，并不是所有的人都能够控制得住自己的情绪的，尤其是血气方刚的年轻人。有时候，我会自己告诫自己，情绪是自己的，不是别人的，不应该被别人 hack 了。所以，无论发生什么事，自己才是自己心情的主人，而不是别人。话虽这样说，但是要做到并不容易。有时候，我也不能很好控制我的情绪，到今天都还不行，这也是我要用一生去成长的事……

沟通技巧

掌握了上面的沟通方式，下面来看几个我经常用的沟通技巧。

引起对方的兴趣

第一是引起对方的兴趣。如果对方没有兴趣的话，那么他是不愿意跟你沟通的。但你要怎样引起对方的兴趣呢？我现在也在创业。我出去跟客户谈，我技术好，是没有用的。只有利益，才能引起对方的兴趣。

举一个真实的例子，为了找一家银行谈合作，我找了一堆关系，给我介绍了某个银行的副行长。见面的时候我的着装有些随意，而周围的人都穿着衬衫和西裤，很正式。估计要不是别人介绍的，他一眼都不想看我，几句话就能把我打发了。

他一开始就问我：你是谁？你们公司叫什么名字？没听说过。注册资本多少？哎呀几十万呀……我被这几个问题搞得非常地狼狈和不堪，完全不知道该怎么往下继续。在这样的情况下，如果你是我你会怎么办呢？该怎样吸引他的兴趣呢？

真实情况是我只用了 20 分钟时间就搞定了这件事。我分享一下，我是怎么做到的。

首先，我见他之前做了一些功课，收集了一些信息。银行和金融业，今年下半年整个形势都是很糟糕的，银行贷款都办不了。国家货币在紧缩，还有 P2P 这些乱七八糟的事儿。于是，我就跟他说，我这边有一个客户，这个客户的现金流比较大，一天的流水大概是 3-5 个亿……

还没等我讲完，他就打断了我，立马说：哦？！请坐，那个谁，过来倒点儿水……当一个人对你有兴趣了以后，后面的事就比较好谈了。当然，我并不是在忽悠他，我做的技术项目本来就是为大规模并发的场景而生的，所以，能用得上这些技术的用户基本上来说都是有一定的业务量的，也是有相应的现金流的……

直达主题，强化观点

第二是直达主题，强化观点。要做到这点，你需要做的是过滤信息，简明扼要地表达。信息不要空泛笼统，而要可以准确执行。亚马逊要求员工都有一个技能叫做 deal with ambiguity。ambiguity 就是歧义的、模糊的，不知道怎么执行的。工程师的情结通常是我写出来的代码 1 就是 1，0 就是 0。

但很多时候产品需求都是很模糊的。而且很多时候，整个世界都是模糊的、有歧义的。有的人这么说，有的人那么说。你都不知道自己该信谁。所以亚马逊要求员工有一个能力就是，你一定要有把模糊的理解变成准确理解的能力，因为如果不这样，你是写不出代码来的。

这种过滤掉无用或者非关键信息的能力很重要。确定自己的目标，学会抓重点，知道自己要什么和不要什么，这样你要的才会更鲜明。当一些事情变得简明和鲜明起来时，你才会表现出有力量的观点和话语。而这些被强化过的观点和话语，只需要一句，就会在对方脑子里形成一个小爆点，要么击中了对方的软处（扎心），要么会让对方产生深度思考。只有这样，你的信息才算是真正地传达过去，并在对方的脑子里生根发芽，这就是所谓的影响力！

要有这样的能力，你需要通过反复练习来获得。在表达之前，要想明白自己表达的目的是什么，先组织一下自己要表达的内容，然后结合自己的表达目的反思这些信息中，哪些是有用信息，哪些是无用信息。留下有用信息之后，思考是否有更加简单明了的表达方式，是不是可以一句话就行。当你开始把大量的信息提炼浓缩成“金句”的时候，你就真正开始成为沟通的高手了。

这里有个小技巧是换位思考，假设你自己获取到这样的信息会怎样理解和执行，甚至可以尝试多维度来理解，自己跟自己“互搏”，逐渐修正，直到令自己满意。这个过程需要花不少心思，也需要长时间的坚持和锻炼。你要对自己有信心。

基于数据和事实

第三是用数据和事实说话。你跟别人沟通，要尽量少说“可能、也许、我觉得就这样”等字眼，你最好通过数据和证据，通过权威的引用和证词，通过相关的实例和亲身的事例来让你的观点有不可被辩驳不可被质疑的特性。当你的信息出现了这样的特性时，接收信息的人，基本上来说，就会无条件地相信。别人会无条件地相信你说的话，你想想这是一种多么牛的沟能方式！

我记得我在亚马逊的时候，产品经理整天在数据仓库里做各种的统计和分析，然后拿着数据来说服老板和开发人员开一个新的项目。当那些数据和事实放在你面前时，你真的是只有认命的份儿了。

所以，在很多时候，我们要在沟通之前注意收集相关的数据和事实，多做一些沟通相关的功课，你的沟通会更有效率。基本上来说，数据、事实、证据和权威是沟通中的大规模杀伤性武器！

小结

总结一下今天的内容。简单来说，在沟通过程中，你要牢记三大沟通方式：尊重对方、倾听对方和情绪控制，从今天开始，你就可以在和别人沟通的时候刻意练习这几大沟通方式了。然后我还和你分享了几个对我帮助很大的沟通技巧。

一是沟通之前，你要想方设法引起对方的兴趣，这里面你要思考对方最关注什么，你可以帮到他什么。
二是直达主题，强化观点，要做到这一点，你需要过滤信息，简明扼要地表达。也就是说你要明确自己的沟通目的，然后围绕目的不断迭代自己的表达内容。同时，你可以用换位思考法来进一步确保自己的表达能够准确无误传递给对方。
三是用数据和实例说话。沟通的时候，你应该尽量少用“可能”、“也许”之类不确定的话术，转而使用数据和实例等确定性的语言来夯实你的观点，当然，这中间你要学会如何积累“实例”。这三样东西不仅可以帮你解决绝大多数问题，而且可以把你的沟通变得简单粗暴、直接有效。

采用这样的方式和技巧，我想你基本上可以解决 80%-90% 以上的沟通问题了。还是那句话，我能做到的，你一定也可以。加油！

来源：《左耳听风专栏：高效沟通》

AnZhihe | 安志合修改