查看原文
其他

估值超 1 亿美金,它将实时语音和视频无缝嵌入到任何应用

StartupBoy 投资实习所
2024-07-19

一直比较关注语音(和视频)这块,核心原因是我觉得语音(和视频)作为人类最为重要的一种沟通方式并且内容已经大爆发,但其内容形态一直都没有得到更好的利用起来。

这主要在于技术的限制,直到这波 AI 爆发,似乎让我们看到了语音(和视频)有可能得到像处理文字一样更高效的处理,这也是我对昨天文章里英伟达投资的视频搜索 AI 这个方向比较看好的原因,也让像 ElevenLabs 和 HeyGen 这样的产品获得爆发式增长。

在上周分享的语音 AI 行业图谱一文中,a16z 甚至把它作为了一个独立的投资主题,我想关于这块的机会也会是 VC 接下来比较关注的一个领域。

今天体验了一下 YC 最近孵化的 PocketPod,我觉得这是未来播客发展方向的一个探索,它完全由 AI 生成,根据你的兴趣爱好从互联网上获取内容生成播客。无论是每日新闻更新还是对特定主题的深入研究,它都可以让人们以熟悉的播客方式来消费信息。

其声音基本上让你感受不到是一个 AI 生成的,我设定了技术、创业公司以及 AI 作为核心的三个关键词,很快就给我生成了一个 16 分钟的两人对话式(一男一女)播客,内容基本上都是关于这几个关键词的。

它还将整个播客的内容还分成了 4 个部分(类似于段落),并且整个播客的过程中可以选择不同类型的背景音乐(目前只有 3 种可选),你还可以将它同步到播客分发平台比方说 Spotify。整个产品目前还比较简单,但已经很有基于 AI 来构建个性化播客的雏形了。

市场对语音的需求自然就催生了对基础设施产品的需求,我之前关注过的一个产品在最近就又拿了 2000 多万美金的投资,估值超过了 1 亿美金。

其解决的核心问题是为构建实时语音和视频驱动的 AI 应用提供基础设施,它可以将实时语音和视频无缝嵌入到任何应用中

其定位比较意思,如果说 OpenAI / Anthropic / Mistral / Meta 正在构建大脑(基础模型),那么这个产品正在构建一个神经系统(网络基础设施),将信号传递到大脑(基础模型)并从大脑传递出来

而它能快速拿到这轮融资的主要原因就是 AI 大模型多模态的快速发展,之前大家一直觉得 AI 能实现看、听以及说这种多模态需要 5 年时间,但没想到在今年就突破了。

包括像 OpenAI 和 Character AI 这样的 AI 企业已经成为其客户,比方说 ChatGPT-4o 里那种快速的语音功能就由其提供技术支持,目前 10 大未上市公司里的 4 家和财富 50 强里的 6 家都是其客户,并且应用场景也扩张到了机器人等更多领域。

于是大量投资人快速跟进完成了这次投资,投资人里包括了 Solo VC Elad Gil、Perplexity CEO、Pika CEO Demi Guo、ElevenLabs CEO 以及 Google 首席科学家 Jeff Dean 等一大批 AI 领域的大拿,除此之外还……

共 2067 后续内容为付费会员专属,会员扫码登录直接阅读

Memo: Signal, not noise!

扫码或点击「阅读原文」继续阅读

订阅 Memo Pro
Memo(vcsmemo.com)是一个基于付费订阅模式的创投内容平台,已得到大量 VC、企业 CEO 以及高管的支持,我们希望帮助你捕捉最具价值的行业信号、过滤噪音(Signal,Not Noise)。
订阅 Memo Pro 你将获得:
1.解锁未来一年以及之前的所有会员专属内容2.邮件订阅功能:付费内容+最新行业快讯+...3.优先体验 Memo 新产品和新功能4.后台回复“发票”获得开票入口
限时 599 元/年,扫码立即订阅

Pika 再拿 8000 万估值 4.7 亿美金,英伟达投了一个视频搜索 AI


a16z 将语音 AI 作为一个独立投资主题,行业图谱展示投资机会


音乐 AI Suno 再拿 1.25 亿美金,用户已超 1000 万


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存