|
GPT-4o:我还没说完呢喂!忽如一夜春风来,OpenAI的技能树上再添新绿。这款由OpenAI开发的最新一代语言模型,不仅在技术上取得了显著突破,更在实际应用中展现出无穷潜力。无论是撰写文章、解决编程难题、进行语言翻译,还是提供日常事务的帮助,ChatGPT-4o都能轻松胜任。GPT-4o通过强大的自然语言处理能力,理解和生成高度逼真的人类语言,使人与机器的交流变得更加自然流畅。 “o” for “omni” GPT-4o声称,它可以接受文本、音频和图像的任意输入组合,再生成文本、音频和图像的任意输出组合。它可以在短至232毫秒内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的反应时间相似。 出色的视觉和音频理解是GPT-4o的一大亮点。 为了展示GPT-4o的多种运用场景,官网给出了一系列人机互动示例: 按用户要求加快或减缓计时间隔;用兴奋的语气祝福用户生日快乐;激动地夸赞用户的宠物;听到用户讲笑话后哈哈大笑;向盲人介绍周围环境;帮助消费者申请售后服务;两个GPT按用户的要求流畅交流;进行面试指导(甚至会评价你的发型);充当剪刀石头布游戏的裁判;按照用户的要求用讽刺的语气讲话;指导用户做数学题;两个GPT-4o合唱;帮助学习西班牙语;参加会议并发言;实时翻译;按照要求演唱指定主题的摇篮曲。 总之,Chat-GPT4o的表现超出你的想象。用远远大于“320毫秒”的处理时间将这十六个视频看完后,笔者感到深深的佩服。很难想象如果和一只稳重风趣又机智的“智能才子”同时进行工作面试,笔者会承受怎样的压力。 文生图片的功能在很多交互式语言大模型当中都有体现,GPT-4o不仅在生成图片方面的连贯性、准确性方面表现优秀,更是凭借其完美的理解能力,应用于你想象得到或者想象不到的各种情景。 指令1细节:first person view of a robot、text is large, legible and clear、hands type on the typewriter 指令2细节:The page is now taller. The page has moved up 指令3细节:he rips it from top to bottom with his hands 可以看到,GPT-4o完美地回应了用户的需求,打字顺序、纸张长度变化乃至撕纸的顺序都尽可能做到了真实。 在没有明确指令的情况下,GPT-4o有意识保留画面主要特征(场景、人物)的一致性。 除了常规的图片生成更准确、更连贯,GPT-4o还有许多其他有趣的用途。 CPT-4o,你还有什么惊喜是朕不知道的! 在分析文本方面,GPT-4o也基本让人安心。 总结和一些细节分析都比较准确。 但“基本”安心的意思是: 因为指令不够清晰,所以GPT和用户可能会产生不同的理解 GPT-4o可以充当完美的教学助手,分析Excel数据。 也可以根据图片,自动生成术语表。 在这一方面,GPT-4o官网也给了相关示例 可以看到,分析一个长达45分钟的视频不在话下。 同样,可以根据音频进行分析。 但笔者自己探索网页免费版时发现,GPT-4o并不支持音视频文件直接读取。 所以,尚未得知官网上的示例是通过什么方式分析读取的。 总的来说,2024年5月13日发布的ChatGPT-4o在各个领域都展示出了强大的实用性和创新性。对于学生和研究者来说,它是个优秀的学习伙伴,能提供从基础知识到专业领域的详尽解答;对于内容创作者和作家来说,它是源源不断的灵感来源,帮助他们创作出引人入胜的作品;对于企业和客户服务团队来说,它则是高效的工作助手,能够迅速处理各种客户咨询和问题。ChatGPT-4o不仅是一个工具,更像是一位随时待命的智能伙伴,引领我们进入一个更加智能和便捷的未来。
原创作者:李嘉玮(大语言模型技术应用小组探索组成员) 推文编辑:李丹 审核:朱华 陈佳艺 |