当前位置：首页 > RPA最新资讯 > AI视角 > ChatGPT重磅升级：可以看图、听声音、说话啦！

ChatGPT重磅升级：可以看图、听声音、说话啦！

suntingting 发布于 2023-09-26 15:36:56
分类：AI视角
来源：
阅读()
评论()

美东时间9月25日，OpenAI在官网宣布，对ChatGPT进行重磅升级实现看图、听声音、输出语音内容三大功能。

早在今年3月OpenAI发布GPT-4模型时，就展示过看图的功能，但由于安全、功能不完善等原因一直没有开放。现在不仅开放了看图，连识别声音也来了，这是OpenAI实现AGI（通用人工智能）战略重要技术环节。

OpenAI表示，在接下来的两周内，向Plus和企业版用户提供看、听、说功能。语音功能将在 iOS 和 Android上使用，图片识别全平台可以使用。

用语音与ChatGPT交流

ChatGPT新的语音功能由一个文本到语音模型提供支持，能够仅通过文字和几秒钟的样本语音生成类似人类的音频。

OpenAI与专业的配音演员合作，创建了5种合成语音，同时使用了自研开源语音识别系统 Whisper，将用户的语音转录成文本。

简单来说，以后用户想将文本直接生成语音，可以在ChatGPT中完成了。

例如，让ChatGPT听一段小猫咪的文本故事，然后选择人类语音便可以一键完成转录。完成后，用户可以下载这段语音。

story-juniper,AIGC开放社区00:30 进度条 10%

可以向ChatGPT提问图片

用户可以向ChatGPT展示一张或多张图片，提问相关的问题。例如，发送一张坏掉的烧烤炉图片，然后询问无法启动原因；拍摄一张冰箱中的食材，询问多种菜品制作方案。

如果用户只想询问图片中的部分内容，可以通过移动端的绘图功能将其框起来进行发问。

ChatGPT的图片理解功能由 GPT-3.5 和GPT-4 提供技术支持，可理解的图片类型包括照片、屏幕截图或包含文本的图片等。

提供安全的AI服务

OpenAI表示，其目标是构建既安全又有益的AGI（通用人工智能）。所以，ChatGPT的功能正在逐步推出。这样做的好处是，可以让OpenAI有时间进行改进，逐步完善安全漏洞、风险。

特别是新的语音技术，可以在几秒内就能生成真实的合成声音，这可能会为诈骗者提供了便利条件，所以，这种安全的研发策略对于涉及语音和视觉的高级模型非常重要。

目前，Spotify已经使用ChatGPT的语音功能，开发一款语音翻译助手，可以将博主的声音自动翻译成其他语言，扩大用户群体。而Be My Eyes将ChatGPT的看图功能，植入在应用中，为盲人和弱视群体提供服务。

本文素材来源OpenAI官网，如有侵权请联系删除

继续阅读：

未经允许不得转载：RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > ChatGPT重磅升级：可以看图、听声音、说话啦！

相关推荐

热门信息

阅读 (14728)
1 2023第三届中国RPA+AI开发者大赛圆满收官&获奖名单公示
阅读 (13753)
2 《Market Insight：中国RPA市场发展洞察（2022）》报告正式发布 | RPA中国
阅读 (13055)
3 「RPA中国杯 · 第五届RPA极客挑战赛」成功举办及获奖名单公示
阅读 (12964)
4 与科技共赢，与产业共进，第四届ISIG中国产业智能大会成功召开
阅读 (11567)
5 《2022年中国流程挖掘行业研究报告》正式发布 | RPA中国

快速导航