首页 >> 业界新闻 >>技术科普 >> GPT-4o：我还没说完呢喂！

文章

文章

搜索

业界新闻

详细内容

GPT-4o：我还没说完呢喂！

忽如一夜春风来，OpenAI的技能树上再添新绿。这款由OpenAI开发的最新一代语言模型，不仅在技术上取得了显著突破，更在实际应用中展现出无穷潜力。无论是撰写文章、解决编程难题、进行语言翻译，还是提供日常事务的帮助，ChatGPT-4o都能轻松胜任。GPT-4o通过强大的自然语言处理能力，理解和生成高度逼真的人类语言，使人与机器的交流变得更加自然流畅。

“o” for “omni”

GPT-4o声称，它可以接受文本、音频和图像的任意输入组合，再生成文本、音频和图像的任意输出组合。它可以在短至232毫秒内响应音频输入，平均响应时间为320毫秒，这与人类在对话中的反应时间相似。

语音对话

出色的视觉和音频理解是GPT-4o的一大亮点。

为了展示GPT-4o的多种运用场景，官网给出了一系列人机互动示例：

按用户要求加快或减缓计时间隔；用兴奋的语气祝福用户生日快乐；激动地夸赞用户的宠物；听到用户讲笑话后哈哈大笑；向盲人介绍周围环境；帮助消费者申请售后服务；两个GPT按用户的要求流畅交流；进行面试指导（甚至会评价你的发型）；充当剪刀石头布游戏的裁判；按照用户的要求用讽刺的语气讲话；指导用户做数学题；两个GPT-4o合唱；帮助学习西班牙语；参加会议并发言；实时翻译；按照要求演唱指定主题的摇篮曲。

总之，Chat-GPT4o的表现超出你的想象。用远远大于“320毫秒”的处理时间将这十六个视频看完后，笔者感到深深的佩服。很难想象如果和一只稳重风趣又机智的“智能才子”同时进行工作面试，笔者会承受怎样的压力。

文生图片

文生图片的功能在很多交互式语言大模型当中都有体现，GPT-4o不仅在生成图片方面的连贯性、准确性方面表现优秀，更是凭借其完美的理解能力，应用于你想象得到或者想象不到的各种情景。

准确呈现细节

指令1细节：first person view of a robot、text is large, legible and clear、hands type on the typewriter

640 (3).png

指令2细节：The page is now taller. The page has moved up

640 (4).png

指令3细节：he rips it from top to bottom with his hands

640 (5).png

可以看到，GPT-4o完美地回应了用户的需求，打字顺序、纸张长度变化乃至撕纸的顺序都尽可能做到了真实。

前后保持一致

640 (3).jpg

在没有明确指令的情况下，GPT-4o有意识保留画面主要特征（场景、人物）的一致性。

多种用途

除了常规的图片生成更准确、更连贯，GPT-4o还有许多其他有趣的用途。

生成手写体：

640 (4).jpg

640 (5).jpg

设计纪念币

640 (6).jpg

640 (7).jpg

商标替换（Photo shop直呼内行）

640 (8).jpg

640 (9).jpg

CPT-4o,你还有什么惊喜是朕不知道的！

文本分析

在分析文本方面，GPT-4o也基本让人安心。

辅助阅读

640 (6).png

总结和一些细节分析都比较准确。

640 (7).png

640 (8).png

但“基本”安心的意思是：

640 (9).png

因为指令不够清晰，所以GPT和用户可能会产生不同的理解

640 (10).png

数据处理

GPT-4o可以充当完美的教学助手，分析Excel数据。

640 (10).jpg

也可以根据图片，自动生成术语表。

640 (11).jpg

640 (15).png

640 (11).png

音视频分析

在这一方面，GPT-4o官网也给了相关示例

640 (12).png

可以看到，分析一个长达45分钟的视频不在话下。

640 (13).png

同样，可以根据音频进行分析。

但笔者自己探索网页免费版时发现，GPT-4o并不支持音视频文件直接读取。

640 (14).png

所以，尚未得知官网上的示例是通过什么方式分析读取的。

总的来说，2024年5月13日发布的ChatGPT-4o在各个领域都展示出了强大的实用性和创新性。对于学生和研究者来说，它是个优秀的学习伙伴，能提供从基础知识到专业领域的详尽解答；对于内容创作者和作家来说，它是源源不断的灵感来源，帮助他们创作出引人入胜的作品；对于企业和客户服务团队来说，它则是高效的工作助手，能够迅速处理各种客户咨询和问题。ChatGPT-4o不仅是一个工具，更像是一位随时待命的智能伙伴，引领我们进入一个更加智能和便捷的未来。