abc 发表于 2023-3-26 22:24:55

研究和测试 GPT-4 的真实能力 GPT-4 Technical Report

许多读者心中可能萦绕的一个问题是,GPT-4 是否真正理解了所有这些概念,或者它是否只 是在即兴发挥方面比以前的模型好得多,而没有任何真正深刻的理解。我们希望在阅读完这篇论文后,这个问题几乎会被反转,让人不禁思考:真正深刻的理解和即兴临场发挥的差别在哪里?一个能通过软件工程候选人考试的系统难道不是真正的智能吗?对于【真正深刻的 理解】,也许唯一的测试手段,就是看它能否 能产生新的知识,比如证明新的数学定理,而 这一壮举目前对大语言模型来说仍然遥不可及。
本文的更接近于传统的心理学而不是机器学习,借鉴了人类的创造力和好奇心。我们的目标是生产新的和困难的任务和问题,令人信服地证明GPT-4远远超出了记忆的范围,并且它对概念、技能和领域有深刻和灵活的理解。我 们还旨在探究GPT-4的反应和行为,以验证其一致性、连贯性和正确性,并揭示其局限性和 偏见。我们承认,这种方法有些主观和不正式,可能无法满足科学评估的严格标准。然 而,我们认为这是一个有用的和必要的第一 步,以了解GPT-4的显著能力和挑战,这样的第一步为开发更正式和全面的方法来测试和分析具有更普遍智能的AI系统开辟了新的机会。
GPT-4的主要优势在于它对自然语言的掌握无可比拟。它不仅可以生成流畅和连贯的文本, 还可以以各种方式理解和处理文本,如总结、 翻译或回答一系列极其广泛的问题。此外,我 们所说的翻译不仅是指不同自然语言之间的翻译,还包括语气和风格的翻译,以及跨领域的翻译,如医学、法律、会计、计算机编程、音乐等等。这些技能清楚地表明,GPT-4能够理解复杂的思想。

https://orangeblog.notion.site/G ... 7efb92cbbd668c8c893
## 引言:

《通用人工智能的火花:GPT-4早期实验》是3月最重要的一篇论文,引起了广泛的关注和讨论,但是论文长达 154页,中文版本还无人翻译。

[本文](https://www.notion.so/GPT-4-8fc50010291d47efb92cbbd668c8c893)挑选了论文中的重点结论并进行翻译,虽然已经是精选,但仍然超过万字。但考虑到 GPT5 明年才能面世,这篇文章在今年什么时候看都不晚。

微软的研究院在很早期就接触到了 GPT-4 的非多模态版本,并对齐进行了详尽的测试。这篇论文就是整个的测试过程和结论。不管是测试方法还是结论都非常精彩,强烈推荐看一遍,传送门在此 。[https://arxiv.org/pdf/2303.12712v1.pdf](https://arxiv.org/pdf/2303.12712v1.pdf)

GPT-4 Technical Report
OpenAI

    We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer-based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4's performance based on models trained with no more than 1/1,000th the compute of GPT-4.
页: [1]
查看完整版本: 研究和测试 GPT-4 的真实能力 GPT-4 Technical Report