IT168首页 > 陶然
  • OpenAI故障复盘|如何保障大规模K8s集群稳定性

    本文通过OpenAI近期遭遇的重大服务中断事件作为案例,深入分析了Kubernetes (K8s) 架构在大规模集群环境下的稳定性挑战,以及阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性的。

    陶然 · 2025-01-08 16:38
  • 抖音集团离线数仓血缘基础能力的构建与应用

    企业数据建设面临两大类问题:第一类问题:聚焦于如何有效识别数据传输链路,特别是在各公司离线数仓规模持续扩大的背景下。用户常遇到以下挑战:首先,针对多业务线场景,需要明确某一 Hive 表中包含哪些业务线的数据,以及某个业务线的数据具体存储在哪些 Hive 表中。这要求企业具备标签识别能力,以清晰界定业务范围。

    陶然 · 2025-01-08 14:24
  • 有这个异常日志问题自动追踪机制,看谁捅篓子还跑得掉

    为了高效地发现、定位和解决预发问题,闲鱼团队研发了一套异常日志问题自动追踪-定位-分发机制。这套机制通过自动化手段,实现了异常日志的定时扫描、精准定位和自动分发,显著降低了开发和测试的成本,提高了问题解决的效率。

    陶然 · 2025-01-07 14:16
  • 网页结构建模在低质采集站上的识别应用

    百度搜索拥有着几十亿级的流量,作弊团伙通过各种各样的手段妄想从巨大的流量中不劳而获。搜索反作弊团队维护百度搜索生态安全和质量,经过不断探索并利用前沿技术过滤低质作弊网页,保护真正付出劳动的站长的利益。本文介绍了基于MarkupLM的网页建模方式,引入XPath embedding自动化提取作弊页面结构特征,并与文本结合来进行采集站点识别。

    陶然 · 2025-01-07 10:08
  • 哪吒汽车官网异常,显示系统维护中,预计下周恢复,面临裁员、停工、股权冻结困境

    这一事件看似只是一次普通的技术故障,但结合哪吒汽车在2024年所遭遇的一系列困境,如工厂停摆、裁员、CEO离职以及股权冻结等,却让人不禁对这家车企的现状和未来发展产生深深的担忧。

    陶然 · 2025-01-07 09:49
  • 携程基于Kafka的数据校验代理在FinOps领域的应用

    为了有效管理云成本,基于携程混合多云和自建PaaS为主的现状,混合云团队研发了FinOps计费系统。本文将介绍计费系统基于Kafka构建的接入体系在数据质量与治理方面的挑战,并分享基于自研Kafka Gatekeeper构建度量及治理自助化自动化的实践。

    陶然 · 2025-01-06 16:18
  • 小红书数据一致性校验能力探索与实践

    本文主要介绍数据一致性校验如何结合小红书的业务进行实践并落地,以及数据一致性校验在小红书内部拿到的实际收益。

    陶然 · 2025-01-06 09:39
  • 看黄陈宏出任用友总裁背后的期待与挑战

    日前,一则重磅消息在企业软件行业引起轩然大波,德国ERP巨头SAP前高管黄陈宏正式出任用友网络科技股份有限公司总裁。这一任命不仅是黄陈宏个人职业生涯的又一重要转折点,也为用友的未来发展注入了新的活力与期待,同时也引发了行业内外的广泛关注与热议。

    陶然 · 2025-01-03 17:35
  • Apache Celeborn 在B站的生产实践

    随着B站业务的飞速发展,数据规模呈指数级增长,计算集群也逐步从单机房扩展到多机房部署模式。多个业务线依托大数据平台驱动核心业务,大数据系统的高效性与稳定性成为公司业务发展的重要基石。

    陶然 · 2025-01-03 16:20
  • 链路诊断优秀实践:1分钟定位错慢根因

    本文聚焦于线上应用的风险管理,特别是针对“错”(程序运行不符合预期)和“慢”(性能低下或响应迟缓)两大类问题,提出了一个系统化的根因诊断方案。

    陶然 · 2025-01-03 10:49
  • 海量存储的批量计算框架

    本文介绍了百度针对海量存储数据计算需求研发的HTAP表格存储系统及计算调度架构。项目背景源于原有存储系统难以满足日益增长的OLAP业务需求,因此构建了集OLTP与OLAP于一体的HTAP系统,通过存算分离、Serverless设计等创新点提升IO访问能力和资源利用率。

    陶然 · 2025-01-02 15:51
  • 异地多活架构设计看这篇就够了

    异地多活是分布式系统架构设计的一座高峰,当业务系统走到需要考虑异地多活这一步,其体量和复杂度都会达到很高的水准。接入层、逻辑层、数据层的三层架构,基本上是每个业务都会拥有的基础架构形态,而三层架构的关键在于数据层,本文将从数据层切入探讨异地多活对于基础架构设计的影响。

    陶然 · 2025-01-02 13:45
  • B站AI计算网络建设实践

    B站网络团队基于业务需求和特性出发,并结合业界对于AI网络的落地实践方案,设计并落地了自己的AI计算网络。本文将简单介绍B站网络团队在建设AI计算网络上的一些设计关键因素和选择。

    陶然 · 2024-12-31 14:15
  • 得物基于AIGC生成测试用例的探索与实践

    随着人工智能技术的快速发展,尤其是在自然语言处理(NLP)、计算机视觉和生成对抗网络(GANs)等领域,AIGC(AI Generated Content)得到了广泛应用,这一技术的进步使得内容创作变得更加高效与多样化,推动了各个行业的创新与变革。对于测试而言,基于AI进行测试用例生成也逐渐从梦想变成现实。

    陶然 · 2024-12-31 10:23
  • 快手系统软件技术创新与领域演进之路

    本篇作为系列文章的开篇,将为您勾勒出快手系统软件团队的整体风貌与成果概览,而后续的篇章则会针对各个重点方向逐一展开,进行深入而详尽的解析。

    陶然 · 2024-12-31 09:49
  • GPU服务器市场十问十答-上篇

    前言,最近不少朋友找我咨询或者私信讨论,其中和GPU服务器产品相关的占大多数,智算产业发展带动了GPU服务器市场的繁荣,我把大家经常讨论的GPU服务器相关问题(或话题)简单做了梳理,筛选了其中我认为比较有代表性的十条通过十问十答的形式给大家做个分享。

    陶然 · 2024-12-30 17:53
  • 如何最大限度的提高人工智能训练效率?

    快速准确地训练人工智能模型,对于建立对这些工作流工具的信任非常重要。随着人工智能驱动的应用程序执行复杂任务的能力越来越强,数据科学家和机器学习工程师需要探索新方法。要为特定用例开发更优模型,利用合适的模型、数据集和部署可以简化人工智能开发过程并产生更优结果。

    陶然 · 2024-12-30 17:44
  • B站推荐模型数据流的一致性架构

    推荐系统的模型,通过学习用户历史行为来达到个性化精准推荐的目的,因此模型训练依赖的样本数据,需要包括用户特征、服务端推荐的视频特征,以及用户在推荐视频上是否有一系列的消费行为。

    陶然 · 2024-12-27 16:54
  • 语音合成技术在货拉拉的应用实践

    TTS(Text To Speech)技术可将文本转换为语音输出,货拉拉主要将其应用于智能客服和电话通知场景。智能客服利用 TTS 实现实时语音反馈,提升用户体验;电话通知则通过离线合成多样化语音内容。相比传统人工预录制方式,TTS 更能满足动态场景和多样化话术需求,实现灵活且个性化的语音合成。

    陶然 · 2024-12-27 15:13
  • 华为盘古大模型赋能有色行业,坤安行业大模型隆重发布

    12月26日,有色金属行业“坤安”人工智能大模型发布会在北京正式举办,国家相关部委有关人员到会指导,中国工程院院士、中南大学校长、党委副书记李建成,中国有色金属工业协会党委常委、常务副会长贾明星出席会议并致辞。

    陶然 · 2024-12-26 23:11