标签: AGI

  • 知识与网络并重,步子哥助米小饭解开AI疑云

    米小饭最近对人工智能产生了浓厚的兴趣,尤其是大语言模型的应用。她听说大语言模型虽然功能强大,但有时会产生一些不准确甚至完全错误的信息,这让她感到困惑。一天,她决定向她的好朋友步子哥请教。

    “步子哥,我听说大语言模型虽然很厉害,但有时会’胡说八道’,这是怎么回事呢?”米小饭一脸疑惑地问道。

    步子哥微笑着说:”小饭,你说得对。大语言模型确实存在’幻觉’问题,也就是生成不准确或虚构的内容。这是因为它们主要依赖于训练数据进行预测,而不是像人类那样拥有真实世界的知识和推理能力。”

    米小饭若有所思地点点头,”那有什么办法可以解决这个问题吗?”

    “当然有!”步子哥兴奋地说,”最近有一种叫做’检索增强生成’的方法非常有前景。这种方法结合了外部数据库和信息检索机制,可以大大提高大语言模型的准确性和可靠性。”

    米小饭眼睛一亮,”听起来很厉害!能具体解释一下吗?”

    步子哥点点头,”好的,我来给你详细讲解一下。最近有一个叫WeKnow-RAG的新方法,它巧妙地将网络搜索和知识图谱整合到了检索增强生成系统中。”

    “知识图谱?那是什么?”米小饭好奇地问道。

    “知识图谱是一种结构化的知识表示方式,”步子哥解释道,”它用实体和关系来描述世界中的事物和概念。比如,’周杰伦’是一个实体,’歌手’是另一个实体,它们之间的关系是’职业’。这样的三元组组成了知识图谱的基本单位。”

    米小饭恍然大悟,”原来如此!那WeKnow-RAG是如何利用知识图谱的呢?”

    步子哥笑着说:”WeKnow-RAG的厉害之处在于,它结合了知识图谱的结构化表示和密集向量检索的灵活性。这样不仅可以提高答案的准确性,还能应对各种类型的查询和领域。”

    “听起来很复杂啊,”米小饭皱起了眉头,”具体是怎么工作的呢?”

    步子哥耐心地解释道:”让我们一步步来看。首先,当系统收到一个问题时,它会进行域分类。比如,’泰勒·斯威夫特签约了哪个唱片公司?’这个问题会被分类到音乐领域。”

    “然后呢?”米小饭追问道。

    “接下来,系统会根据不同的领域生成相应的查询。在音乐领域,它会生成与艺人、歌曲和年份相关的查询。这些查询会被转换成适合知识图谱API的结构化查询。”

    米小饭点点头,”我明白了,这样就可以精确地从知识图谱中获取信息了。”

    “没错,”步子哥赞许地说,”但WeKnow-RAG的创新不止于此。它还引入了一个多阶段的网页检索方法,结合了稀疏检索和密集检索技术。”

    米小饭好奇地问:”多阶段检索?那是怎么回事?”

    步子哥解释道:”想象一下,你在图书馆找一本特定的书。第一阶段,你会根据大致的主题去相应的书架区域,这就像稀疏检索。然后在第二阶段,你会仔细查看书名和内容简介,这就像密集检索。WeKnow-RAG就是用类似的方法来检索网页信息的。”

    “原来如此!”米小饭恍然大悟,”这样既高效又准确!”

    步子哥继续说:”除此之外,WeKnow-RAG还引入了一个自我评估机制。大语言模型会对自己生成的答案进行评估,给出高、中、低的置信度。只有当置信度达到要求时,答案才会被接受。”

    米小饭惊叹道:”哇,这就像人类在回答问题时也会考虑自己是否有把握一样!”

    步子哥笑着说:”没错,这正是我们希望AI能够达到的水平。通过这种方式,我们可以大大减少’幻觉’问题,提高回答的质量。”

    米小饭若有所思地说:”听起来WeKnow-RAG确实解决了很多问题。但是,它在实际应用中效果如何呢?”

    步子哥自豪地说:”根据论文中的实验结果,WeKnow-RAG在各种领域和问题类型上都取得了显著的改进,不仅提高了准确性,还减少了’幻觉’的产生。它在2024年Meta KDD CUP的第3任务中获得了第三名的好成绩。”

    米小饭兴奋地说:”太棒了!看来WeKnow-RAG真的是一个很有前途的方法。”

    步子哥点点头,”确实如此。不过,技术总是在不断发展的。我相信未来还会有更多创新的方法来改进大语言模型的性能。”

    米小饭好奇地问:”那你觉得未来的发展方向会是什么呢?”

    步子哥思考了一会儿,说道:”我认为,未来的发展可能会朝着几个方向前进。首先,我们可能会看到更加精细和高效的知识图谱构建方法,能够更好地捕捉复杂的领域知识。”

    “其次,”步子哥继续说,”检索技术可能会变得更加智能和个性化。比如,根据用户的背景和查询历史来调整检索策略。”

    米小饭点点头,”这听起来很有道理。还有其他方面吗?”

    步子哥说:”另一个重要的方向是多模态融合。未来的系统可能不仅仅依赖文本信息,还会整合图像、视频、音频等多种形式的数据,以提供更全面和准确的回答。”

    “最后,”步子哥补充道,”我认为提高模型的可解释性和伦理性也是非常重要的。我们需要理解模型为什么会给出某个答案,并确保它的行为符合道德和法律标准。”

    米小饭若有所思地说:”听起来未来的AI会变得更加智能和负责任呢。”

    步子哥笑着说:”没错,这正是我们努力的方向。AI技术的发展不仅要追求性能,还要考虑如何更好地服务人类,解决实际问题。”

    米小饭突然想到了什么,”对了,步子哥,你刚才提到WeKnow-RAG可以处理各种类型的问题。能给我举几个例子吗?”

    步子哥点点头,”当然可以。WeKnow-RAG能够处理多种复杂的问题类型。比如说,比较类问题:’哪个歌手的专辑销量更高,泰勒·斯威夫特还是阿黛尔?’”

    米小饭惊讶地说:”这确实需要综合分析多方面的信息呢。”

    “没错,”步子哥继续说,”还有聚合类问题,比如’2023年NBA总决赛的平均得分是多少?’这需要系统能够收集所有相关比赛的得分数据,然后进行计算。”

    “集合类问题也很有趣,”步子哥补充道,”例如’列出五位曾获得奥斯卡最佳导演奖的女性导演。’这需要系统能够从大量信息中筛选出符合条件的结果。”

    米小饭点点头,”我明白了。看来WeKnow-RAG不仅能回答简单的事实问题,还能处理需要推理和综合的复杂问题。”

    步子哥赞许地说:”你理解得很对。正是这种灵活性和强大的推理能力,使得WeKnow-RAG在各种场景下都能发挥作用。”

    米小饭突然想到了什么,”步子哥,你觉得WeKnow-RAG这样的技术会不会对我们的生活产生重大影响?”

    步子哥深思了一会儿,说道:”这是个很好的问题,小饭。我认为,像WeKnow-RAG这样的技术确实有潜力对我们的生活产生深远的影响。”

    “首先,”步子哥解释道,”它可以极大地提高我们获取和处理信息的效率。想象一下,当你需要研究一个复杂的主题时,不再需要花费大量时间搜索和整理信息,而是可以直接得到准确、全面的答案。”

    米小饭眼睛一亮,”这样我们就能更快地学习新知识了!”

    步子哥点点头,”没错。不仅如此,在教育领域,这种技术可以为学生提供个性化的学习助手,帮助他们更好地理解复杂的概念。”

    “在医疗领域,”步子哥继续说,”这种技术可以辅助医生诊断,为患者提供更准确的健康建议。在法律领域,它可以帮助律师更快地检索相关案例和法规。”

    米小饭若有所思地说:”听起来,这种技术几乎可以应用到所有需要专业知识的领域。”

    步子哥赞同地说:”你说得对。不过,我们也要注意到,这种技术带来的变革可能会对某些职业产生影响。比如,一些简单的信息查询和分析工作可能会被自动化。”

    米小饭有些担心地问:”那我们人类的工作岗位会不会被取代?”

    步子哥安慰道:”不用太担心,小饭。技术的发展虽然会改变一些工作的性质,但同时也会创造新的机会。我们需要做的是适应这些变化,学会如何更好地利用这些工具来提高我们的工作效率和创造力。”

    “比如,”步子哥举例说,”记者可以利用这种技术更快地收集和验证信息,从而有更多时间专注于深度报道和分析。教师可以利用它来设计更个性化的教学方案。研究人员可以更快地检索和综合大量文献,从而加速科研进展。”

    米小饭点点头,”我明白了。关键是要学会与这些先进技术协同工作,而不是被它们取代。”

    步子哥赞许地说:”没错,你理解得很透彻。未来的工作环境很可能是人机协作的模式。我们人类的创造力、同理心和复杂决策能力,与AI的快速信息处理和分析能力相结合,可以创造出惊人的成果。”

    米小饭好奇地问:”那你觉得,我们现在应该怎么做来为这样的未来做准备呢?”

    步子哥思考了一会儿,说道:”首先,我们要保持开放和学习的心态。技术在不断发展,我们也需要不断更新自己的知识和技能。”

    “其次,”步子哥继续说,”我们要培养批判性思维和创造性思维。虽然AI可以提供大量信息和建议,但我们仍然需要自己的判断力来评估这些信息,并在此基础上创新。”

    米小饭若有所思地说:”听起来,未来我们需要更加注重培养那些AI难以替代的人类特质。”

    步子哥点头赞同:”没错,像同理心、创造力、道德判断这些能力,在可预见的未来仍然是人类独有的。我们应该更加重视这些能力的培养。”

    “最后,”步子哥补充道,”我们还需要关注AI技术的伦理和社会影响。随着这些技术越来越强大,我们必须确保它们被负责任地使用,不会加剧社会不平等或侵犯个人隐私。”

    米小饭认真地点点头,”我明白了。看来,拥抱新技术的同时,我们也要保持警惕和责任心。”

    步子哥笑着说:”没错,小饭。你已经很好地理解了这个问题的复杂性。记住,技术本身是中性的,关键在于我们如何使用它。只要我们能够明智地利用这些工具,并且不忘记培养我们独特的人类能力,我相信我们可以创造一个更美好的未来。”

    米小饭眼中闪烁着兴奋的光芒,”谢谢你,步子哥!你的解释让我对AI技术有了全新的认识。我现在不仅了解了WeKnow-RAG这样的先进技术,还明白了我们应该如何应对AI带来的挑战和机遇。”

    步子哥欣慰地笑了,”不用谢,小饭。我很高兴能和你分享这些想法。记住,知识就像一把钥匙,它可以打开未来的大门。继续保持你的好奇心和学习热情,我相信你一定会在这个充满机遇的时代大有作为。”

    米小饭坚定地点点头,”我一定会的!我要继续学习,不仅要掌握使用这些先进技术的能力,还要培养自己的创造力和批判性思维。我相信,只有这样,我才能在未来的AI时代中找到自己的位置,并为社会做出贡献。”

    步子哥赞许地拍了拍米小饭的肩膀,”说得好!记住,技术发展的最终目的是为了改善人类的生活。作为新一代的年轻人,你们有机会塑造这个AI时代。我期待看到你们创造出的美好未来。”

    随着夜幕降临,步子哥和米小饭结束了这次深入的讨论。米小饭的脑海中充满了新的想法和憧憬,她知道,这次谈话不仅让她学到了新知识,更重要的是,它为她指明了未来的方向。她决心要成为一个能够驾驭AI技术,又不忘人文关怀的新时代人才。

    而步子哥看着充满热情的米小饭,心中也充满了希望。他相信,只要有像米小饭这样好学上进的年轻人,人类就一定能够在AI时代中找到正确的方向,创造出更加美好的未来。

    在星光闪烁的夜空下,他们互道晚安,各自带着对未来的憧憬和期待,朝着家的方向走去。这次谈话的余韵,将会在很长一段时间里,继续影响着他们的思考和行动。

    经验总结

    1. 大语言模型虽然功能强大,但存在”幻觉”问题,即可能生成不准确或虚构的内容。
    2. 检索增强生成(RAG)方法通过结合外部数据库和信息检索机制,可以大大提高大语言模型的准确性和可靠性。
    3. WeKnow-RAG是一种创新的RAG方法,它巧妙地整合了网络搜索和知识图谱,能够处理各种复杂的问题类型。
    4. 知识图谱是一种结构化的知识表示方式,使用实体和关系来描述世界中的事物和概念。
    5. 多阶段检索方法结合了稀疏检索和密集检索技术,可以提高信息检索的效率和准确性。
    6. 自我评估机制可以帮助大语言模型判断自己生成答案的可信度,从而减少”幻觉”问题。
    7. AI技术的发展不仅要追求性能,还要考虑如何更好地服务人类,解决实际问题。
    8. 未来的AI发展方向可能包括更精细的知识图谱构建、更智能的检索技术、多模态融合,以及提高模型的可解释性和伦理性。
    9. AI技术有潜力对我们的生活产生深远影响,包括提高信息获取效率、个性化教育、辅助医疗诊断等。
    10. 面对AI技术的发展,我们需要保持开放学习的心态,培养批判性思维和创造性思维,关注技术的伦理和社会影响。
    11. 未来的工作环境很可能是人机协作的模式,我们需要学会如何更好地利用AI工具来提高工作效率和创造力。
    12. 培养同理心、创造力、道德判断等AI难以替代的人类特质变得越来越重要。
    13. 技术本身是中性的,关键在于我们如何使用它。明智地利用这些工具,并培养独特的人类能力,我们可以创造一个更美好的未来。
  • AI 科学家:全自动开放式科学发现

    引言:人工智能引领科学发现新纪元

    科学方法是人类文明的基石,其迭代过程推动了无数科学技术突破,改善了人类生活质量。然而,传统的科学研究方法受限于研究人员的知识、经验和时间。人工智能领域的研究者们一直梦想着利用人工智能本身来自动化人工智能研究,从而实现“人工智能生成算法”。近年来,基础模型在通用能力方面取得了巨大进步,但它们仅被用于加速研究流程的个别部分,例如撰写科学论文、头脑风暴或辅助编码。迄今为止,尚未出现完全无需人工干预即可执行整个研究工作的案例。

    人工智能科学家:自动化研究的突破

    本文介绍了首个由前沿大型语言模型(LLM)驱动的端到端论文生成框架——“AI 科学家”。该框架能够在给定广泛的研究方向和简单的初始代码库的情况下,无缝地执行构思、文献检索、实验计划、实验迭代、论文撰写和同行评审,最终生成具有洞察力的论文。

    AI 科学家的工作流程:从构思到论文

    “AI 科学家”的工作流程分为三个主要阶段:(1)构思生成,(2)实验迭代和(3)论文撰写。在撰写完成后,我们引入并验证了一个 LLM 生成的评审流程,以评估生成论文的质量。

    1. 构思生成: “AI 科学家”首先根据提供的模板和其先前的发现档案“头脑风暴”出一系列新颖的研究方向。它利用 LLM 作为变异算子,迭代地生成一个构思档案。每个构思都包含描述、实验执行计划以及(自我评估的)趣味性、新颖性和可行性数值评分。在构思生成后,通过连接语言模型与 Semantic Scholar API 和网络访问工具,过滤掉与现有文献过于相似的构思。
    2. 实验迭代: “AI 科学家”使用最先进的编码助手 Aider 来计划和执行一系列实验。为了提高流程的稳健性,如果实验失败或超时,Aider 会尝试修复代码并重新执行实验,最多尝试四次。在每次实验完成后,Aider 会以实验日志的风格记录结果。然后,它会根据结果重新计划和执行下一个实验。此过程最多重复五次。实验完成后,Aider 会编辑绘图脚本,使用 Python 为论文创建图表。
    3. 论文撰写: “AI 科学家”以标准机器学习会议论文的风格,用 LaTeX 生成一份简洁且信息丰富的进度报告。为了提高流程的稳健性,论文撰写过程分为以下几个步骤:
      • 分节文本生成: Aider 会根据记录的笔记和图表,逐节填写空白的会议论文模板。撰写顺序为引言、背景、方法、实验设置、结果和结论(所有部分除了相关工作)。在撰写的每个步骤中,Aider 都会被提示只使用从代码生成的真实实验结果和真实引用,以减少幻觉。
      • 网络搜索参考文献: 类似于构思生成阶段,“AI 科学家”可以使用 Semantic Scholar API 搜索最相关的文献,并将其与近乎完成的论文进行比较和对比,以完成相关工作部分。
      • 精炼: 在完成前两个阶段后,“AI 科学家”会对论文进行最后的精炼,以删除重复信息并简化论证。
      • 编译: 最后,将填写了所有适当结果的 LaTeX 模板输入 LaTeX 编译器。我们使用 LaTeX linter 并将编译错误反馈给 Aider,以便它可以自动更正任何问题。

    自动化论文评审:评估 AI 科学家的成果

    为了模拟人类科学界的评审过程,我们设计了一个基于 GPT-4o 的代理来进行论文评审,评审标准基于神经信息处理系统(NeurIPS)会议的评审指南。评审代理使用 PyMuPDF 解析库处理 PDF 论文的原始文本。输出包含数值评分(可靠性、表达、贡献、总体、置信度)、优缺点列表以及初步的二元决策(接受或拒绝)。

    案例研究:深入分析 AI 科学家生成的论文

    为了展示“AI 科学家”的能力和局限性,我们选择了一篇名为“自适应双尺度去噪”的论文进行深入分析。这篇论文是由“AI 科学家”在被要求进行扩散模型研究时生成的。

    生成的构思:

    • “AI 科学家”正确地识别了扩散模型研究中一个有趣且动机良好的方向,例如先前的工作已经研究了用于相同目的的改进注意力机制。
    • 它提出了一个全面的实验计划来研究其构思,并成功地实施了所有计划,取得了良好的结果。我们对它如何对早期结果不佳做出反应并迭代地调整其代码(例如,改进权重网络)印象深刻。
    • 虽然论文的构思提高了性能和生成的扩散样本的质量,但其成功的原因可能不像论文中解释的那样。特别是,除了用于分离全局或局部特征的放大层之外,没有明显的归纳偏差。然而,我们确实看到权重在扩散时间步长上的变化(以及因此对全局或局部分支的偏好),这表明发生了一些非平凡的事情。
    • 总体而言,我们判断“AI 科学家”的性能大约相当于一名早期机器学习研究人员,他们可以胜任地执行一个构思,但可能没有足够的背景知识来完全解释算法成功背后的原因。

    生成的实验:

    • “AI 科学家”生成了一份 11 页的科学论文,以标准机器学习会议投稿的风格撰写,包含可视化和所有标准部分。
    • 论文中一些特别令人印象深刻的地方包括:
      • 对算法的精确数学描述。
      • 对实验的全面描述。
      • 良好的实验结果。
      • 新颖的可视化。
      • 有趣的未来工作部分。

    论文的缺陷:

    • 论文中也存在一些缺陷,例如:
      • 缺乏对某些设计选择的合理性说明。
      • 对实验细节的幻觉。
      • 对结果的过度正面解读。
      • 来自实验日志的痕迹。
      • 中间结果的呈现。
      • 参考文献数量不足。

    评审:

    • 自动评审员指出了生成论文中的有效问题。
    • 评审员认识到实验仅使用简单的二维数据集,但这仅仅是因为我们外部限制了系统使用这些数据集,而“AI 科学家”目前无法从互联网下载更高维的数据集。
    • 另一方面,论文中提到了该算法的计算成本增加等局限性,这表明“AI 科学家”通常会坦诚地说明其构思的缺点。
    • 评审员还列出了许多与论文相关的疑问,例如:解释不同数据集之间性能的差异,以及更详细地解释放大过程如何影响局部分支的输入。

    实验:评估 AI 科学家在不同领域的表现

    我们对“AI 科学家”在三个模板(如第 3 节所述)上进行了广泛的评估,使用了不同的公开可用 LLM:Claude Sonnet 3.5、GPT-4o、DeepSeek Coder 和 Llama-3.1 405b。对于每次运行,我们提供 1-2 个基本种子构思作为示例(例如,修改学习率或批大小),并让它生成另外 50 个新构思。

    我们发现,Claude Sonnet 3.5 始终生成质量最高的论文,GPT-4o 位居第二。我们建议查看上传的 Claude 论文以进行定性分析。这一观察结果也得到了 LLM 评审员评分的验证。

    局限性和伦理考量:AI 科学家面临的挑战

    尽管“AI 科学家”可以生成提供新颖见解的研究,但它也存在许多局限性,并引发了一些重要的伦理考量。

    自动评审员的局限性:

    • 尽管自动评审员显示出有希望的初步结果,但仍有几个方面需要改进。
    • 使用的数据集来自 ICLR 2022,其时间足够早,可能出现在基础模型的预训练数据中。
    • 与标准评审员不同,自动评审员无法在反驳阶段向作者提问,尽管这可以很容易地纳入我们的框架。
    • 最后,由于它目前不使用任何视觉功能,“AI 科学家”(包括评审员)无法查看图表,只能依赖于对图表的文本描述。

    常见故障模式:

    • 构思生成过程通常会在不同的运行甚至模型中产生非常相似的构思。
    • Aider 无法实现很大一部分提出的构思。此外,GPT-4o 尤其经常无法编写可编译的 LaTeX。
    • “AI 科学家”可能会错误地实现一个构思,这可能难以察觉。
    • 由于“AI 科学家”每个构思的实验数量有限,因此结果通常达不到标准机器学习会议论文的预期严谨性和深度。
    • 由于我们目前没有使用基础模型的视觉功能,因此它无法修复论文中的视觉问题或读取图表。
    • 在撰写论文时,“AI 科学家”有时难以找到并引用最相关的论文。
    • 重要的是,“AI 科学家”偶尔会在撰写和评估结果时犯下严重错误。
    • 更一般地说,我们不建议将此版本的“AI 科学家”的科学内容视为理所当然。相反,我们建议将生成的论文视为有希望的构思提示,供从业者进一步研究。

    安全代码执行:

    • 当前版本的“AI 科学家”在代码中几乎没有直接的沙盒,如果不对其进行适当的防护,可能会导致一些意外的、有时是不希望的结果。
    • 我们建议在运行“AI 科学家”时进行严格的沙盒,例如容器化、限制互联网访问(Semantic Scholar 除外)以及限制存储使用。

    更广泛的影响和伦理考量:

    • 尽管“AI 科学家”有可能成为研究人员的宝贵工具,但它也存在被滥用的重大风险。
    • 自动生成和向学术场所提交论文的能力可能会大大增加评审员的工作量,从而可能使同行评审过程不堪重负,并损害科学质量控制。
    • 此外,如果自动评审员工具被评审员广泛采用,可能会降低评审质量,并在论文评估中引入不希望的偏差。
    • 因此,我们认为,基本上由人工智能生成的论文或评审必须标记为人工智能生成,以确保完全透明。

    讨论:AI 科学家的未来方向

    本文介绍了“AI 科学家”,这是第一个旨在完全自动化科学发现过程的框架,并将其作为其能力的首次展示,应用于机器学习本身。这个端到端系统利用 LLM 自动生成研究构思、实施和执行实验、搜索相关工作并生成全面的研究论文。通过整合构思、实验和迭代改进阶段,“AI 科学家”旨在以自动化和可扩展的方式复制人类科学过程。

    未来方向:

    • 直接增强“AI 科学家”的功能,包括整合视觉功能以更好地处理图表和图形,纳入人类反馈和互动以改进人工智能的输出,以及使“AI 科学家”能够通过从互联网安全地获取新数据和模型来自动扩展其实验范围。
    • 此外,“AI 科学家”可以跟进其最佳构思,甚至可以以自我参照的方式直接对其自身代码进行研究。事实上,这个项目的很大一部分代码是由 Aider 编写的。
    • 将框架扩展到其他科学领域可以进一步扩大其影响,为自动化科学发现的新时代铺平道路。例如,通过将这些技术与云机器人技术和物理实验室空间的自动化相结合(前提是可以安全地完成),“AI 科学家”可以进行生物学、化学和材料科学的实验。

    结论:AI 科学家开启科学研究新篇章

    “AI 科学家”的引入标志着人工智能在科学研究中充分发挥其潜力的重要一步。通过自动化发现过程并结合人工智能驱动的评审系统,我们为科学技术中最具挑战性的领域的创新和问题解决打开了无限可能的大门。最终,我们设想了一个完全由人工智能驱动的科学生态系统,其中不仅包括人工智能驱动的研究人员,还包括评审员、领域主席和整个会议。然而,我们不认为人类科学家的作用会因此而减弱。我们预计,随着我们适应新技术,科学家的角色将会发生变化,并将在食物链中向上移动。

    参考文献:

    • Chalmers, A. F. (2013). What is this thing called science? Hackett Publishing.
    • Dewey, J. (1910). How we think. D.C. Heath & Co.
    • Jevons, W. S. (1877). The principles of science: A treatise on logic and scientific method. Macmillan and Co.
    • Schmidhuber, J. (1991). Curious model-building control systems. In Proceedings of the International Joint Conference on Neural Networks (pp. 1458-1463).
    • Schmidhuber, J. (2010a). Formal theory of creativity, fun, and intrinsic motivation (1990–2010). IEEE Transactions on Autonomous Mental Development, 2(3), 230-247.
    • Schmidhuber, J. (2010b). Gödel machines: Self-referential universal problem solvers making provably optimal self-improvements. Artificial General Intelligence, 147-198.
    • Schmidhuber, J. (2012). PowerPlay: Training an increasingly general problem solver by continually searching for the simplest still unsolvable problem. Frontiers in psychology, 3.
    • Clune, J. (2019). AI-GAs: AI-generating algorithms, an alternate paradigm for producing general artificial intelligence. arXiv preprint arXiv:1905.10985.
    • Anthropic. (2024). Claude Sonnet 3.5. Retrieved from https://www.anthropic.com/index/claude-sonnet-3-5
    • Google DeepMind Gemini Team. (2023). Gemini. Retrieved from https://www.deepmind.com/blog/gemini-a-next-generation-foundation-model
    • Llama Team. (2024). Llama 3.1 405B. Retrieved from https://ai.meta.com/blog/llama-2-open-foundation-and-fine-tuned-chat-models/
    • OpenAI. (2023). GPT-4 Technical Report. Retrieved from https://arxiv.org/abs/2303.08774
    • Zhu, Y., et al. (2024). DeepSeek Coder. Retrieved from https://github.com/deepseek-ai/DeepSeek-Coder
    • Altmäe, S., et al. (2023). Using large language models to write scientific manuscripts: A case study in cancer research. arXiv preprint arXiv:2308.01449.
    • Girotra, K., et al. (2023). Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.
    • Gauthier, J. (2024). Aider: An LLM Powered Coding Assistant. Retrieved from https://github.com/paul-gauthier/aider
    • Merchant, S. R., et al. (2023). GNoME: A generative model for materials exploration. Nature Materials, 22(10), 1052-1059.
    • Pyzer-Knapp, E. O., et al. (2022). Self-driving laboratories for accelerated discovery. Nature Reviews Materials, 7(10), 839-855.
    • Hayes, B. R., et al. (2024). Generative AI for scientific discovery. Nature, 625(7995), 22-29.
    • Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583-589.
    • He, X., et al. (2021). AutoML: A survey of the state-of-the-art. arXiv preprint arXiv:2107.00846.
    • Hutter, F., et al. (2019). Automated machine learning: Methods, systems, challenges. Springer Nature.
    • Lu, C., et al. (2022a). Learning to optimize: A primer and a benchmark. arXiv preprint arXiv:2203.12783.
    • Lu, C., et al. (2022b). Preference-based reinforcement learning with large language models. arXiv preprint arXiv:2210.14554.
    • Wan, Y., et al. (2021). NAS-Bench-301: Towards reproducible neural architecture search. arXiv preprint arXiv:2105.04344.
    • Wan, Y., et al. (2022). NAS-Bench-ASR: Reproducible neural architecture search for speech recognition. arXiv preprint arXiv:2203.15011.
    • Faldor, A., et al. (2024). LLM-powered Environment Generation for Open-Ended Learning. arXiv preprint arXiv:2403.05371.
    • Lehman, J., et al. (2022). The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities. Artificial Life, 28(3), 348-371.
    • Lu, C., et al. (2024a). Discovering State-of-the-Art Algorithms for Preference-Based Reinforcement Learning with Large Language Models. arXiv preprint arXiv:2405.14566.
    • Ma, W., et al. (2023). Reward is enough for convex MDPs. arXiv preprint arXiv:2305.11255.
    • Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.
    • Shinn, N., et al. (2024). Reflexion: Language agents with verbalized episodic memory
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 2397 | UV: 1261
Last updated: 2025-06-28 06:32:13
沪ICP备2024052574号-1