- 顺丰基于自研的算力资源管理与调度实践
使用原生GPU时,第一步需要在节点上安装GPU驱动。第二步安装nvidia-docker2,设置docker default runtime为nvidia。如此一来,docker后续可以将GPU挂载到容器环境中。第三步安装nvidia-device-plugin,它的作用是将设备上报给K8s集群,后续K8s则可以调度该节点的GPU。
陶然 · 2026-02-11 13:51 - 大算力+大模型,光合组织启动联合攻关
今天,“国产万卡算力赋能大模型发展研讨会暨联合攻关启动仪式”在郑州举行。光合组织集结国内头部大模型厂商与算力基础设施提供商等百家核心生态伙伴及顶尖专家学者,深入洞读国产“万卡大算力”与“万亿大模型”协同发展路径,并正式启动联合攻关行动。
陶然 · 2026-02-10 20:46 - HP EliteBook X G1i评测:AI赋能商务本,开启高效办公新时代
在当今快节奏的职场环境中,一台既能应对高强度办公任务,又具备出色便携性与智能体验的笔记本电脑,已成为职场精英的必备工具。今天,我们评测的正是惠普全新推出的高端商用AI笔记本——HP EliteBook X G1i。它能否在轻盈机身中承载强大AI算力,从而重塑移动办公体验?让我们一探究竟。
陶然 · 2026-02-05 16:14 - 服务拆分之旅:测试过程全揭秘|得物技术
随着出价业务最近几年来的快速发展,出价服务承接的流量虽然都是围绕卖家出价,但是已远远超过卖家出价功能范围。业务的快速迭代而频繁变更给出价核心链路高可用、高性能都带来了巨大的风险。
陶然 · 2026-02-05 09:54 - 大模型网关:大模型时代的智能交通枢纽
在人工智能技术快速演进的时代,大型语言模型和AI智能体已成为各类应用的核心组件,引发AI相关API流量的指数级增长。而大模型网关,正是这场变革中应运而生的智能交通枢纽。随着DeepSeek、Qwen等开源模型及各类商用大模型的普及,企业AI应用场景日益丰富,从智能客服自动化到代码生成与软件开发。
陶然 · 2026-02-03 09:35 - 得物离线数仓发布流水线质量门禁实践
随着企业数字化转型加速推进,大数据业务规模呈现指数级增长,迭代变更越发频繁。此背景下,呈现"高频变更"与"超大规模"并存的特征,这种双重特性给大数据任务的发布变更带来了严峻挑战。
陶然 · 2026-02-02 10:16 - 华为云发布“行业AI梦工厂”智慧医疗专区 加速医疗AI普惠
今日,医疗人工智能协同创新论坛暨医疗人工智能联盟(筹)2026年第一次学术会议在华为练秋湖上海研发中心举办。会中,华为重磅发布“行业AI梦工厂”智慧医疗专区,同时联合瑞金医院发布RuiPath智慧病理一体机,旨在让AI普惠每一家医院、每一位医生、每一名患者。
陶然 · 2026-02-01 16:37 - 聊聊多模态训练数据创建的八个挑战
多模态AI能够处理图像、音频和文字等多种数据形式,亦可捕捉面部表情和周遭环境细节,让用户与AI的日常交互变得更加轻松自然、如同与好友聊天。2023年,多模态AI市场规模就已达到12亿美元,预计自2024年至2032年期间复合年增长率将超过30%。
陶然 · 2026-01-30 10:24 - AI正通过七种方式颠覆软件测试惯例
AI向软件测试的渗透不仅改变了测试人员的工作流程,更重塑了开发者在整个生命周期中的测试理念。除了风头正劲的代码生成,AI在测试领域同样显现出强大力量,逐步解决困扰开发团队多年的现实瓶颈。
陶然 · 2026-01-28 17:21 - 提效200%!星巴克日志平台的架构升级之路
2024年9月开始计划,在不改变用户查询和提升用户体验的前提下,到2025年6月完成所有日志平台组件架构升级和版本迁移。在这中间的过程中,经历了mapping不兼容、字段类型冲突、查询上下文失效、重复消费误告警等诸多业内普遍存在的难题,最终实现了单机查询性能提升80%,整体cpu下降30%,写入tps提升 200%。
陶然 · 2026-01-27 09:25 - RTP-LLM在相关性大模型中的推理优化实践
在淘宝搜索场景下,用户Query与候选商品(Item)之间的相关性判别是非常重要的一环,它筛选出该Query下最相关的商品, 是用户体验的基石。过去几年主搜在相关性场景上已经做了不少工作,并且取得了显著的正向收益,今年,为了进一步解决部分口语化Query承接效果较差的问题,这给我们的系统性能提出了巨大挑战。
陶然 · 2026-01-26 10:02 - APMPlus 尾采样技术的降本增效实践
在现代软件工程架构实践中,工程师普遍面临一个挑战:如何在海量的请求中精确捕捉异常链路,同时避免数据成本的快速增长。本文将探讨分布式链路追踪(Distributed Tracing)中的采样(Sampling)技术,并介绍火山引擎 APMPlus 团队在尾采样(Tail-based Sampling)方面的技术实践,以期为解决上述挑战提供一种思路。
陶然 · 2026-01-22 16:40 - vivo互联网全链路多版本环境落地实践
在软件研发过程中,“环境问题”是制约研发效能的关键瓶颈之一。环境不稳定、测试环境混乱、环境抢占严重等问题,显著影响开发与测试效率。本文系统介绍vivo通过“全链路多版本环境管理”模式,实现开发测试环境的快速构建与高效管理,使多版本环境能够像“平行宇宙”一般,实现安全、隔离、高效的并行测试与发布。
陶然 · 2026-01-22 10:00 - 面向未来的长期主义:在不确定的时代,构建确定性的存储底座
我们正在经历一个技术变化速度前所未有的时代。从大模型、智能制造到自动驾驶、视频生成,AI正以前所未有的速度重塑各行各业。但如果把视角拉得更长远,我们会发现一个更底层、也更确定的趋势正在同步发生:数据规模的持续膨胀,是不可逆的长期变量。随之而来的,还有个人和组织对于数据价值观的变化。
陶然 · 2026-01-21 09:54 - 以前那套故障管理方法可能不行了
在“SRE转型”系列的第一期推文《SRE转型 | 稳定性保障系列之运维左移》中,我们围绕系统稳定性保障工作,分享了针对软件上线前期的运维左移工作的工作思路与实施策略。接下来,本文将深入探讨广发证券在事中应急处理和事后复盘方面应急指挥场景的实践,从而提升业务连续性和稳定性。
陶然 · 2026-01-20 09:19 - 解耦、中立、常青:XSKY AIMesh击穿阻碍AI效率的“三堵墙”
传统存储架构在AI负载下已经暴露出严重的性能瓶颈,在大量训练与数据工程场景中,GPU利用率被I/O等待拉低至30-50%,数据孤岛问题在混合云环境下愈加突出,长上下文推理场景中内存成本呈指数级增长。针对上述挑战,2026年1月15日,XSKY在北京举办了主题为“数据常青 智算无界”的AIMesh产品战略发布会,宣布战略重心从“信息技术(IT)”全面跨越至“数据智能(Data Intelligence)”。
陶然 · 2026-01-15 17:51 - 百度流式计算开发平台的降本增效之路
对实时数据处理需求的增长,传统流式计算方式在开发复杂度、运维成本和系统扩展性上面临诸多挑战。文章结合实际业务背景,详细分析了这些痛点,并提出通过k8s容器编排与云原生技术构建流式计算PaaS平台的解决思路。该平台将底层资源、自愈、状态管理等复杂性封装为自动化和配置化服务,有效降低团队使用门槛,提升运维效率和资源利用率。
陶然 · 2026-01-15 09:28 - Instagram十亿级“用户名已被占用”背后的架构设计
当你在Instagram等平台上注册并输入用户名时,系统会立即告诉你该用户名是否可用。如果已被占用,它会立即提供其他替代用户名。每次用户注册时,他们根本不可能逐条扫描数十亿条记录。那么,他们是如何在眨眼间完成这一切的呢?本文将逐步介绍这些系统的构建过程,从最基本的方法开始,逐步升级到大型科技公司采用的复杂架构。
陶然 · 2026-01-13 17:14 - 滴滴前端工程师的研发效率提升笔记
工具的价值最终取决于使用它的人。要充分释放AI-IDE的潜力,核心在于我们开发者如何去引导、利用并与AI高效协作。本文旨在将主要前端开发的视角展开,结合具体的开发场景,分享一些在日常工作中有效利用AI-IDE,以显著提升工作效率与代码质量的实践经验。
陶然 · 2026-01-13 10:15 - 从Kafka到AutoMQ:爱奇艺实时流数据架构演进
本文详细介绍了爱奇艺在处理大规模实时流数据时,从传统Kafka架构向AutoMQ演进的技术历程。为了解决私有云环境下集群扩缩容难、资源利用率低以及运维成本高等挑战,爱奇艺开发了Stream平台与Stream-SDK,实现了业务与底层存储的彻底解耦。
陶然 · 2026-01-09 14:23