标签: AGI

  • 从文本到建筑:人工智能如何改变建筑设计


    序章:设计师的救星

    在建筑设计师的世界里,复杂的BIM(建筑信息模型)软件往往是必不可少的工具,然而,这些工具也因其繁琐的操作和高昂的学习成本让许多设计师望而却步。如今,一项新兴技术可能会彻底改变这一局面。由慕尼黑工业大学的研究人员提出的“Text2BIM”框架,利用大型语言模型(LLM)从自然语言指令直接生成可编辑的三维建筑模型,使设计师的工作更加直观和高效。

    设计的痛点

    在过去的几十年里,BIM作为一种反映建筑资产几何和语义信息的整体方法,逐渐成为建筑设计的标准流程。然而,BIM工具通常要求设计师掌握复杂的命令和建模技巧,这无形中增加了设计师的认知负荷,也限制了BIM技术在建筑、工程和施工(AEC)行业的广泛应用。

    随着生成式人工智能技术的兴起,建筑设计的创意潜力和效率得到了显著提升。过去的研究和工业应用主要集中在生成二维图像或简单的三维体积上,而在生成复杂的三维建筑模型方面尚未取得突破。

    LLM的跨界合作

    为了填补这一空白,Text2BIM框架应运而生。通过协调多个LLM智能体,该框架能够将文本描述转化为可执行的代码,最终生成包含内部布局、外部包覆和语义信息的BIM模型。这些模型不仅可以在BIM软件中进一步编辑,还能够用于后续的建筑仿真、分析和维护任务。

    在该框架中,四个LLM智能体分别扮演不同的角色:产品负责人、建筑师、程序员和审查员。它们通过协作将模糊的用户输入逐步转化为详细的建筑模型,确保每一步都符合建筑学的基本原则和工程要求。

    从文本到建模的魔法

    Text2BIM的核心在于将BIM软件的底层API封装成一系列高级工具函数,并通过提示工程技术引导LLM调用这些函数生成代码。具体来说,当用户输入一条简单的指令时,产品负责人智能体会首先对其进行扩展和细化,生成详细的需求文档。建筑师智能体则根据建筑学知识生成文本化的建筑平面图。这些平面图随后由程序员智能体转化为代码,并在BIM软件中执行,生成初步的建筑模型。

    生成的模型会通过规则检查器进行质量评估,并由审查员智能体分析检查结果,提出优化建议。这个过程会不断迭代,直到生成的模型没有明显错误为止。

    实验结果:LLM的大显身手

    为了验证Text2BIM框架的有效性,研究人员设计了一系列复杂的测试用例,并对不同的LLM进行了性能对比。实验结果表明,该框架能够生成高质量、结构合理的建筑模型,且这些模型与用户的抽象概念高度一致。

    更重要的是,研究人员开发的互动软件原型将该框架集成到BIM软件Vectorworks中,展示了“聊天式建模”的潜力。无论是从文本到三维模型的转换过程,还是模型质量的迭代优化,LLM智能体都表现出了强大的学习和推理能力。

    未来展望:从建筑到更多领域

    Text2BIM框架的成功不仅展示了LLM在建筑设计领域的潜力,也为未来的更多应用场景提供了启示。随着更多专用工具的开发,LLM智能体有望在更加复杂的工程任务中发挥作用,进一步解放设计师的创造力和生产力。

    结语:智能化设计的新时代

    Text2BIM框架的出现标志着智能化建筑设计迈出了重要的一步。通过将自然语言转化为建筑模型,这一框架不仅降低了设计师的操作门槛,也为BIM的广泛应用铺平了道路。在未来,随着技术的不断进步,我们有理由相信,LLM智能体将成为建筑设计师的得力助手,引领智能化设计进入一个全新的时代。


    参考文献:

    1. Du, C., et al. (2024). “Towards commands recommender system in bim authoring tool using transformers.” Proc. of the 31th Int. Conference on Intelligent Computing in Engineering (EG-ICE).
    2. Du, C., et al. (2024). “Towards a copilot in BIM authoring tool using large language model based agent for intelligent human-machine interaction.” Proc. of the 31th Int. Conference on Intelligent Computing in Engineering (EG-ICE).
    3. Eastman, C., et al. (2009). “Automatic rule-based checking of building designs.” Automation in Construction, 18, 1011–1033.
    4. Liao, W., et al. (2024). “Generative ai design for building structures.” Automation in Construction, 157, 105187.
    5. Sun, C., et al. (2024). “3d-gpt: Procedural 3d modeling with large language models.” ArXiv.

  • P/D-Serve: 大规模服务分解式大语言模型的革新之路

    在人工智能的浪潮中,大语言模型(LLM)如同一位博学多才的智者,为我们开启了无限可能。然而,这位智者的”大脑”是如此庞大,以至于我们需要精心设计一套系统,才能让它高效地为人类服务。今天,让我们一起走进P/D-Serve的世界,看看它是如何巧妙地解决了大规模服务分解式大语言模型的难题。

    想象一下,你正在组织一场盛大的音乐会。你有成千上万的观众(用户请求),还有一群才华横溢的音乐家(LLM模型)。如何让每位观众都能及时入场,并欣赏到完美的演出呢?这就是P/D-Serve要解决的问题。

    从”独奏”到”交响乐”:分解式LLM的诞生

    传统的LLM服务就像是一位全能的独奏家,既要快速反应(prefill阶段),又要持续演奏(decoding阶段)。这种”一人包揽”的方式虽然简单,但难以兼顾速度和持久性。于是,研究者们灵光一现:为什么不把这个过程分解成两个阶段呢?

    就这样,分解式LLM诞生了。它就像是把独奏家拆分成了两个角色:一个负责快速开场(prefill),一个专注于后续演奏(decoding)。这种方式大大提高了整体性能,但同时也带来了新的挑战。

    挑战一:如何应对多样化的”观众”需求?

    在现实世界中,用户的请求千奇百怪,就像音乐会的观众有着不同的品味。有人喜欢短小精悍的独奏,有人则沉迷于长篇大论的交响乐。P/D-Serve面临的第一个挑战就是:如何高效地处理这些多样化的请求?

    传统方法简单粗暴,把所有请求扔进一个大池子里统一处理。这就像是把摇滚乐迷和古典乐爱好者随机分配座位,显然效果不佳。P/D-Serve采用了更智慧的方式:它会根据请求的特点进行精细化组织,就像是根据音乐类型为观众安排专区。

    具体来说,P/D-Serve引入了动态RoCE(RDMA over Converged Ethernet)映射技术。这项技术就像是一个灵活的座位分配系统,可以根据需求动态调整”演出区”(prefill)和”欣赏区”(decoding)的比例。比如,当发现有大量短请求时,系统会增加prefill实例的数量;反之,则会增加decoding实例。

    这种精细化的组织方式不仅提高了处理效率,还为进一步优化打下了基础。例如,对于具有相似前缀的请求,系统可以将它们分配到同一组prefill实例中,充分利用缓存,提高处理速度。

    挑战二:如何避免”观众”久等无果?

    在传统的调度系统中,全局调度器就像是一个不太称职的剧院经理。他只能根据每个演出厅定期报告的排队情况来分配观众,但这些报告往往不够准确或及时。结果就是,有些观众可能被分到已经人满为患的厅,而有些厅却门可罗雀。

    P/D-Serve提出了一个巧妙的解决方案:按需转发机制。这就像是给每位观众一个智能手环,当他们被分配到一个已满的演出厅时,系统会立即将他们引导到其他空闲的厅。这种机制不仅避免了不必要的等待,还能更均衡地利用所有资源。

    具体来说,当一个prefill实例拒绝请求时,网关会尝试将请求转发给其他空闲的实例。这种方法解耦了调度器和本地队列,使得系统能够更灵活地应对实时负载变化。

    挑战三:如何高效传递”演出信息”?

    在分解式LLM中,prefill和decoding阶段之间需要传递大量中间数据(KVCache)。这就像是在音乐会中,开场乐手需要将演奏信息传递给主演奏者。传统方法采用固定大小的数据块进行传输,这就像是用一堆小纸条传递信息,效率低下且容易出错。

    P/D-Serve采用了更聪明的方法:它将所有需要传输的数据组织成一个连续的大块,一次性传输。这就像是用一个完整的乐谱来传递信息,既快速又准确。在接收端,系统会巧妙地将这些数据重新组织成所需的格式。

    此外,P/D-Serve还优化了传输路径,充分利用网络的多样性,就像是为信息传递设计了多条快速通道,确保即使在大规模部署中也能保持稳定的传输性能。

    成果斐然:P/D-Serve的实际表现

    P/D-Serve不仅仅是纸上谈兵,它已经在实际生产环境中经受了考验。在超过八个月的商业使用中,P/D-Serve部署在数万个NPU设备上,展现出卓越的性能:

    1. 端到端吞吐量提升60%
    2. 首个token响应时间(TTFT)服务水平目标(SLO)提升42%
    3. 设备间数据传输时间缩短46%

    更令人瞩目的是,与传统的聚合式LLM相比,P/D-Serve在吞吐量上实现了惊人的6.7倍增长!

    结语:开启AI服务新纪元

    P/D-Serve的成功不仅仅是技术上的突破,更代表了我们在驾驭AI这头”大象”方面迈出的重要一步。它向我们展示了,通过精心设计和优化,我们可以让看似庞大复杂的AI系统变得更加高效、灵活和可靠。

    正如一场精彩的交响乐需要指挥家的精心编排,优秀的AI服务系统同样需要巧妙的设计和协调。P/D-Serve就像是AI世界的”神奇指挥棒”,让千万台设备协同工作,为用户带来流畅、高效的AI体验。

    随着AI技术的不断发展,我们有理由相信,像P/D-Serve这样的创新将继续推动AI服务向更高效、更智能的方向迈进。在不久的将来,我们或许能够看到更多令人惊叹的AI应用,为人类社会带来前所未有的便利和可能性。

    让我们共同期待AI服务的美好未来!

    参考文献:
    [1] Jin, Y. et al. (2023). P/D-Serve: Serving Disaggregated Large Language Model at Scale. arXiv:2408.08147.

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 2435 | UV: 1268
Last updated: 2025-06-29 02:31:34
沪ICP备2024052574号-1