- 微软代码埋雷,Linux内核6.13险翻车,英特尔和AMD紧急救场
今天,一则关于微软代码引发的技术事故在开源社区引起轩然大波。微软为改善x86_64/AMD64(即64位AMD和英特尔CPU)架构性能所贡献的代码,在未经x86内核维护者确认(Ack)的情况下就被推送,这一失误险些导致Linux内核6.13版本“翻车”。
陶然 · 2025-01-14 17:52 - 英伟达CES:未来,就在我们手中
从英伟达联合创始人兼首席执行官黄仁勋的主题演讲来看,AI系统似乎正在顺利实现第一点。日前,英伟达在拉斯维加斯消费电子展(CES)上发布的全新的Cosmos世界基础模型,更是标志着其正朝着第二个重点奋力前进。
陶然 · 2025-01-14 14:34 - 京东广告生成式召回基于NVIDIA TensorRT-LLM的推理加速实践
推荐系统的主要任务是根据用户的历史行为预测其兴趣点,并向其推荐相应的商品。传统的推荐系统在处理用户请求时,会触发多个召回模块,以召回大量候选商品。随后,系统通过相对简单的粗排模型对候选集进行初步筛选,缩小候选范围,最后通过精排和重排模型,确定最终返回给用户的推荐结果。
陶然 · 2025-01-14 10:02 - 架构师指南之开放表格式和对象存储篇
近年来,开放表格式和对象存储正在重新定义各个组织构建其数据系统的方式,并为可扩展、高效、且面向未来的数据湖仓奠定了基础。通过利用对象存储的成本效益等独特优势,以及 Apache Iceberg、Delta Lake 和 Apache Hudi 等开放表格式的高级元数据管理功能,组织正在创建满足现代化数据工作负载需求的模块化架构。
陶然 · 2025-01-13 13:47 - 为何企业需要AI查询引擎来推动代理式AI?
根据 IDC 的 Global DataSphere,到 2028 年,企业每年将产成 317ZB 数据——包括 29ZB 的独特数据——其中 78% 是非结构化数据,44% 为音频和视频数据。由于数据量巨大且类型多样,大多数生成式 AI 应用只会使用所存储和生成数据总量的一小部分。
陶然 · 2025-01-09 17:34 - 百度视频搜索架构演进
随着信息技术的迅猛发展,搜索引擎作为人们获取信息的主要途径,其背后的技术架构也在不断演进。本文详细阐述了近年来视频搜索排序框架的重大变革,特别是在大模型技术需求驱动下,如何从传统的多阶段级联框架逐步演变为更加高效、灵活的端到端排序框架。
陶然 · 2025-01-09 10:20 - OpenAI故障复盘|如何保障大规模K8s集群稳定性
本文通过OpenAI近期遭遇的重大服务中断事件作为案例,深入分析了Kubernetes (K8s) 架构在大规模集群环境下的稳定性挑战,以及阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性的。
陶然 · 2025-01-08 16:38 - 抖音集团离线数仓血缘基础能力的构建与应用
企业数据建设面临两大类问题:第一类问题:聚焦于如何有效识别数据传输链路,特别是在各公司离线数仓规模持续扩大的背景下。用户常遇到以下挑战:首先,针对多业务线场景,需要明确某一 Hive 表中包含哪些业务线的数据,以及某个业务线的数据具体存储在哪些 Hive 表中。这要求企业具备标签识别能力,以清晰界定业务范围。
陶然 · 2025-01-08 14:24 - 有这个异常日志问题自动追踪机制,看谁捅篓子还跑得掉
为了高效地发现、定位和解决预发问题,闲鱼团队研发了一套异常日志问题自动追踪-定位-分发机制。这套机制通过自动化手段,实现了异常日志的定时扫描、精准定位和自动分发,显著降低了开发和测试的成本,提高了问题解决的效率。
陶然 · 2025-01-07 14:16 - 网页结构建模在低质采集站上的识别应用
百度搜索拥有着几十亿级的流量,作弊团伙通过各种各样的手段妄想从巨大的流量中不劳而获。搜索反作弊团队维护百度搜索生态安全和质量,经过不断探索并利用前沿技术过滤低质作弊网页,保护真正付出劳动的站长的利益。本文介绍了基于MarkupLM的网页建模方式,引入XPath embedding自动化提取作弊页面结构特征,并与文本结合来进行采集站点识别。
陶然 · 2025-01-07 10:08 - 哪吒汽车官网异常,显示系统维护中,预计下周恢复,面临裁员、停工、股权冻结困境
这一事件看似只是一次普通的技术故障,但结合哪吒汽车在2024年所遭遇的一系列困境,如工厂停摆、裁员、CEO离职以及股权冻结等,却让人不禁对这家车企的现状和未来发展产生深深的担忧。
陶然 · 2025-01-07 09:49 - 携程基于Kafka的数据校验代理在FinOps领域的应用
为了有效管理云成本,基于携程混合多云和自建PaaS为主的现状,混合云团队研发了FinOps计费系统。本文将介绍计费系统基于Kafka构建的接入体系在数据质量与治理方面的挑战,并分享基于自研Kafka Gatekeeper构建度量及治理自助化自动化的实践。
陶然 · 2025-01-06 16:18 - 看黄陈宏出任用友总裁背后的期待与挑战
日前,一则重磅消息在企业软件行业引起轩然大波,德国ERP巨头SAP前高管黄陈宏正式出任用友网络科技股份有限公司总裁。这一任命不仅是黄陈宏个人职业生涯的又一重要转折点,也为用友的未来发展注入了新的活力与期待,同时也引发了行业内外的广泛关注与热议。
陶然 · 2025-01-03 17:35 - Apache Celeborn 在B站的生产实践
随着B站业务的飞速发展,数据规模呈指数级增长,计算集群也逐步从单机房扩展到多机房部署模式。多个业务线依托大数据平台驱动核心业务,大数据系统的高效性与稳定性成为公司业务发展的重要基石。
陶然 · 2025-01-03 16:20 - 链路诊断优秀实践:1分钟定位错慢根因
本文聚焦于线上应用的风险管理,特别是针对“错”(程序运行不符合预期)和“慢”(性能低下或响应迟缓)两大类问题,提出了一个系统化的根因诊断方案。
陶然 · 2025-01-03 10:49 - 海量存储的批量计算框架
本文介绍了百度针对海量存储数据计算需求研发的HTAP表格存储系统及计算调度架构。项目背景源于原有存储系统难以满足日益增长的OLAP业务需求,因此构建了集OLTP与OLAP于一体的HTAP系统,通过存算分离、Serverless设计等创新点提升IO访问能力和资源利用率。
陶然 · 2025-01-02 15:51 - 异地多活架构设计看这篇就够了
异地多活是分布式系统架构设计的一座高峰,当业务系统走到需要考虑异地多活这一步,其体量和复杂度都会达到很高的水准。接入层、逻辑层、数据层的三层架构,基本上是每个业务都会拥有的基础架构形态,而三层架构的关键在于数据层,本文将从数据层切入探讨异地多活对于基础架构设计的影响。
陶然 · 2025-01-02 13:45 - B站AI计算网络建设实践
B站网络团队基于业务需求和特性出发,并结合业界对于AI网络的落地实践方案,设计并落地了自己的AI计算网络。本文将简单介绍B站网络团队在建设AI计算网络上的一些设计关键因素和选择。
陶然 · 2024-12-31 14:15