打造中国最大的
AI信息汇总平台


最新动态 第2页

详细教程!一文教你如何免费使用GP4!

该教程帮助大家如何从零开始使用微软的Copilot

Bing Chat正式更名为Copilot,品牌升级意味着Copilot正在成为一个独立的新产品,用户无需先导航到Bing就可以访问。Copilot现在可以通过Bing和Windows使用,与ChatGPT一样,微软Copilot也有了自己的独立域名:copilot.microsoft.com,但与ChatGPT不同,Copilot上像GPT-4、DALL-E 3等功能全部免费开放!你只需登录微软账户即可使用(而ChatGPT需要订阅会员,每月20刀)。

微软Copilot的使用

首先,无论你使用的是手机、Mac还是Windows电脑,需要做的第一件事就是下载微软的Edge浏览器。目前,copilot只能通过Edge使用。微软显然是借此机会推广自家的工具。使用copilot有两种方式:一是直接访问网页入口,链接为:https://copilot.microsoft.com/,二是通过浏览器右上角的小图标直接访问。

Copilot的功能和特色

在copilot的页面里,微软提供了一些提示,告诉你copilot大概能帮你做些什么样的任务。简单拆解一下,其实有几种不同的类型,一类就是聊天,你可以直接问对应的问题;另外一个就是可以帮你设计你需要的表格,还有其他类型的任务,你可以理解为都是生成文本性质的,可以帮你写各种不同的东西。

详细教程!一文教你如何免费使用GP4!插图

对话风格选择

微软提供了不同的对话风格选项,这也是跟GPT-4非常不一样的特点,如果你选择更有创造力对话模式,你生成的结果是更开放性,更有可能有各种特殊的结果。如果你选择右边更精确的话,他会是更稳定,你可能重复问几次,获得的结果都会是类似一样的。不同的选择其实会对应不同的使用场景。

详细教程!一文教你如何免费使用GP4!插图1

图片生成和识图能力

接下来我们让他画一幅海报

详细教程!一文教你如何免费使用GP4!插图2

Dalle3理解图片的能力非常强,同时也可以根据我们的要求对图片进行进一步的修改,比如调整图片的局部显示,更改风格等。

接下来我们继续看一下识图能力

详细教程!一文教你如何免费使用GP4!插图3

我们把刚刚生成的图片中的一张交给Copilot描述,通过结果我们可以看到,他的理解非常精确,包括图片的场景细节和整体元素几乎完全涵盖。同时Copilot比GPT4更加独特的地方在于他可以在侧边栏随时唤醒,为我们总结一些文章信息。

Copilot和ChatGPT plus的差异

Copilot区别于ChatGPT plus 在使用场景上的存在一些特点和差异,以及Copilot现在依然存在的一些限制,但是我们可以通过一些prompt的方式去最大限度减少这些限制。包括它在处理中文询问时过度依赖搜索结果的问题,以及在处理复杂任务时的局限性。对于这些问题,下篇文章中我会提供一些解决方案,帮助大家更好地利用这一工具。

AI 爱好者论坛开始招募!

欢迎来到我们的AI爱好者公益网站!我们致力于推广人工智能,让更多人了解和使用AI技术。作为一个非营利性质的平台,我们的宗旨是让AI走进每个人的生活,让技术更加普惠。

为了实现这一目标,我们计划翻译一系列英文AI相关书籍。为什么选择翻译这些书籍呢?因为这些书籍蕴藏着丰富的知识和最新的AI技术发展,但很多人由于语言障碍无法获得这些宝贵的信息。通过翻译这些书籍,我们可以让更多的人获得这些宝贵的资源,促进AI技术的普及和发展。

我们邀请您成为我们的核心会员,并加入我们的翻译组。利用GPT等技术,我们将免费翻译这些书籍,并在网站上免费发布。通过参与翻译,您不仅可以自己学习,还能帮助到其他人,为AI技术的传播贡献自己的一份力量。加入我们,让我们共同推动AI技术的普及化,让更多人受益!

AI 爱好者论坛开始招募!插图

大模型创业,谁赚到钱了?

大模型创业,谁赚到钱了?插图

本文深入探讨大模型技术的商业化趋势,以及在不断发展中找到赚钱路径,让我们一起阅读这篇文章,看看作者有何解读吧!

大模型创业,谁赚到钱了?插图1

只有亏钱赚吆喝,没有闷声赚大钱。

几年前,有人问自动驾驶赚不赚钱,一位CEO的回复是:这就像问“小学生赚不赚钱”,可能会逼他去麦当劳打工。

现在,很多人想知道大模型创业赚不赚钱,答案可能是:这就像大学生刚毕业去打工,还养不活自己。

大模型创业,看起来很火,但赚钱很难。一位大模型创业公司CEO参加了一场线下沙龙,到场的十多家创业公司,只有两家有收入。如果把研发费用算进来,没有一家赚钱。

投资人的期待很高。金沙江创投主管合伙人朱啸虎说,在中国做AI创业,必须考虑在什么场景下可以实现落地,并且第一天就要可以赚钱。

按这个标准看来,大部分创业者都不合格。

一些上市的互联网大厂,搞起了“反向营销”。比如360表示,大模型产品创造了2000万元相关业务收入;商汤宣布,生成式AI相关收入增长670%;美图称,大模型拉动公司利润增长3.2倍。

这些公司用各种加定语的表述方式,急匆匆地告诉外界自己赚到钱了。但仔细剖析你会发现,业务还是之前的业务,只是换了个名头,加了个帽子而已。

一位投资人直言,仍在试图搞清楚,哪些公司将把人工智能的前景转化为长期利润。他用冰球比赛来类比,“中间的冰球没有被控制住,没有人知道它会去哪里”。

大模型如何赚钱?这是一个很核心的问题。只有搞清楚这个问题,我们才能看清创业者往何处去,资本如何流动。

我们将这个问题进一步拆分成四小问——赚谁的钱?怎么赚钱?谁在赚钱?能赚多久?

一、赚谁的钱?

从终极买单人来看,大模型的商业模式可以分为两类——to C和to B(严格意义上还有to G,即面向政府,这里归入to B)。

在科技互联网行业,to C是一门好生意,边际效应足够明显。我们熟知的微信、滴滴打车、美团外卖、抖音短视频,都属于to C类产品。开发出类似的爆款应用,是很多创业者的梦想。

大模型行业有没有to C的爆款应用?

有,ChatGPT。

去年11月底,美国AI创业公司OpenAI推出ChatGPT,两个月获得1亿月活用户,让整个科技圈大为震撼。4个月后,月活用户突破10亿,史上增长最快网站诞生。

向这些用户收取订阅费,是一门好生意——OpenAI在2月初(月活刚过亿时)推出付费订阅版ChatGPT Plus,每月收费20美元。

随后美国涌现出一大批类似产品,基本都是面向C端使用,订阅付费模式。

据应用商店监测平台Sensor Tower的数据,2023年上半年AI应用下载量同比增长114%,突破3亿次,超出2022年全年水平;此外,AI应用内购收入同比激增175%,逼近4亿美元——虽然单个用户付费不多,但只要人够多,生意也够大。国内厂商推出的通用大模型产品,现在大部分是免费。

第一个吃螃蟹的大厂是百度,文心一言在11月1日上线专业版,每月收费59.9元。跟订阅模式不同,还有一种向C端提供产品,向B端(广告主)收费的模式,即“羊毛出在猪身上狗买单”。这是互联网行业的通用玩法,目前还没有几家厂商具备这个实力。to B的生意,规模很大,市场分散。大模型赚钱最直接的方式是,开放API接口。

早在2020年夏天,OpenAI推出GPT-3。次年1月,一家叫做Jasper的公司成立,通过接入GPT-3模型,针对市场营销场景做精调,自动生成各种风格的营销文案,当年就赚了3000万美元。它只需要向OpenAI支付调用API的授权费用。

所以,OpenAI最早的收入实则来源于B端。像Jasper这种需要向基础大模型调用API的公司,即大量的“开发者”,都是OpenAI等大模型公司的客户。

造物云是一家做AI设计解决方案的创业公司,他们在开发自有系统的过程中,就要调用外部基础大模型的API,包括GPT4、Baichuan-13B、ChatGLM2-6B等,按照调用量付费。

商汤在上半年发布“日日新”大模型时,产品没有向C端消费者开放,也不像百度和阿里等大厂那样提供内测机会,而是直接开放API接口,面向政企客户。

B端付费的另外一种方式,是SaaS模式。

AI厂商借助大模型的能力,给企业做方案、改系统、跑流程,最终降本增效。当然,这个过程是要收费的。这跟前几年热炒的产业互联网、企业数字化差不多。

造物云创始人邱懿武给「定焦」举了一个例子,他们曾帮助一家电子烟品牌做产品设计,花了100万找传统设计公司做了100多个方案,现在通过AI大模型,生成800个设计方案只花了10块钱的算力成本。

类似的逻辑,很多企业存在用AI替代销售、客服、理财顾问等岗位的需求。他们愿意为之付费。

二、怎么赚钱?

搞清楚了谁来买单,接下来的问题是,如何把钱赚到手?

在C端市场,赚钱靠应用。

这波大模型浪潮中,最早在C端赚到钱的公司,是上文提到的Jasper。

Jasper的业务建立在OpenAI的平台上。它打了一个时间差——第一批参与了GPT-3的小型内测,拿到API接口,在ChatGPT之前上线了产品。

文案写作是一个需求明确的市场,用AI生成文案,只要效果比人好,就会有人买单。Jasper的用户中一度有超过四分之三的人每个月支付80美元甚至更多,来获得各种写作模板套件。它在2021年的收入超过给它提供底层技术的OpenAI。

这给了行业启发。美国有非常多创业公司,调用大模型的API来打造新的应用,最火爆的是AI对话机器人和Midjourney这类AI图像生成产品,在应用商店分别贡献了49%、31%的下载量。

于是在美国,一度形成了基础大模型很难赚钱,而上层应用轻松赚钱的局面。有人在今年6月统计了全球月访问量最高的50个AIGC网站,发现名单上90%的应用有收入,几乎所有公司都采用订阅制。

不过,这条路在国内尚未完全走通。

国内竞争最激烈的战场在基础大模型,“百模大战”打的是通用大模型,而不是应用。

收费9块9的妙鸭相机,7月短暂火过一阵。3月就上线的文心一言,直到11月才开启订阅收费。而据Sensor Tower数据,2023年上半年,美国市场贡献了55%的AI应用总收入,欧洲市场占20%,包括中国在内的其他市场,加起来只占比25%。

原因有很多,比如中国的基础大模型起步较晚,应用层发展所倚赖的条件仍不成熟;中国面向消费端的应用付费意愿不强;另外AI生成的内容不可控,必然面临监管——9月初国内才开放第一批大模型备案,此前都只能内测。

智谱AI CEO张鹏说,在中美市场环境差别下,大模型企业的机会还是在企业端的垂类应用。

做B端市场,离钱最近的是做行业大模型。

用大模型给零售、金融、制造等领域进行智能化升级,是大部分国内企业认可的一条路。发布大模型较晚的腾讯、华为、京东,都在力推行业大模型。

这基于一个共识:用行业数据对通用大模型进行精调形成的行业大模型,在特定领域的表现会更好。

国内的互联网大厂从基础大模型做起,搭配行业大模型,抢占各大垂直行业。比如华为发布盘古大模型后,很快就在金融、制造、矿山、气象等垂直领域布局了垂直大模型,形成广泛覆盖。

有能力自研通用大模型的互联网大厂,更倾向于跟自己的云业务结合,对产业进行渗透,赚钱方式更多样。

百度、腾讯、阿里、华为等云厂商,在自己的云平台上搭载多个大模型(包括自研的和第三方的模型),然后把模型、算力、工具打包,以AI开发平台的形式对外提供服务。

他们就像开商场的,把场地、水电、设备等基础设施准备好,让商家(开发者、企业)进来开店,对商家提供服务并费用。同时,他们自己也会开店。

比如百度的文心千帆大模型平台,企业可以在平台上选择基座大模型,调用各种工具,在云端做推理、微调及托管,生成自己的大模型,然后定制化开发产品。这种方式比单纯调用API接口更能绑定客户。

为了打影响力,吸引客户,有一些厂商会将自己的大模型开源,然后用闭源大模型商业化。典型的如百川智能、智谱AI、阿里。

百川智能前期推出的几款大模型都是开源,免费可商用。赚了一波吆喝后就推出了两款闭源大模型,参数量更大,性能更强,面向B端开放API接口,开启变现。

这跟化妆品试用装的套路有点像,试用装免费,商业版收费。“另外它可能透露配方,如果有厂商想基于这个配方去创造一个新的产品,就需要交授权费。”人工智能公司开放传神(OpenCSG)创始人、CEO陈冉说。

三、谁在赚钱?

大模型公司都想向外界证明自己具备赚钱能力,实际上,把钱赚到手的公司不多。

根据OpenAI最新透露的信息,ChatGPT的周活用户数达到1亿人,有200万开发者正在使用OpenAI的API接口,92%的财富500强公司正在使用OpenAI的产品搭建服务。B端C端双管齐下,让它今年的收入或将超过13亿美元,远超去年的几千万美元。不过,在高额的研发投入和算力开支之下,OpenAI依然亏损。

好在它能通过技术迭代不断缩减成本。3月1日发布的GPT-3.5 Turbo模型,API的价格比GPT-3.5模型便宜10倍,8月它又通过提高每次API调用的速度,间接降低了调用成本。最新推出的GPT-4 Turbo,定价整体要比GPT-4降低超过2.75倍。

很多公司学习OpenAI。OpenAI的劲敌Anthropic推出付费版的Claude Pro,每月收取20美元(与ChatGPT Plus价格一样);百度推出文心一言付费版也是想在C端变现。

C端变现得有规模。底层算力成本高,导致产品一定要上量。在国内,还没有出现真正意义上的爆款应用。这意味着,移动互联网的盈利模式——C端赚关注、B端赚广告,尚无法成立。

相比AI聊天,办公软件是目前盈利模式最清晰、大厂布局最多的场景。

向OpenAI投资了100多亿美元的微软,已经把ChatGPT功能嵌入到工作协同软件Teams、必应(Bing)搜索引擎、Edge浏览器、Office办公套件Copilot,打造AI时代的办公全家桶。

这为微软带来了新的创收机会。由ChatGPT加持的Teams每月收费7美元,Office 365 Copilot每月收费30美元,目前已有100万用户为嵌入AI的Copilot功能付费。面向B端的商业版也在11月上线。市场预计微软接下来的营收还会大幅跃升。

钉钉在国内快速跟进。在阿里集团内部,钉钉是通义千问大模型最早的落地场景,群聊、文档、视频会议、应用开发等功能纷纷跟大模型结合。然后钉钉开始面向企业收费,不同方案在原有年费的基础上加价数万元不等。

金山办公也宣布WPS以API调用的形式接入了百度、智谱AI、Minimax三家公司的大模型,上线文字缩写、扩写、改写,自动生成文档等功能。暂时先免费,明年可能会收费。

这些产品并非全新物种,只是对原有产品的升级改造。钉钉跟微软Teams相似,WPS跟office相似,它们都是将大模型功能嵌入原有产品线,提高变现能力。用邱懿武的说法,这一轮AI大模型的本质是换引擎,把AI内置后赋能各项业务。

但在国内,不论个人还是企业,一旦涉及到付费,就非常考验其对产品的粘性。

秘塔科技CEO闵可锐认为,很多公司并不愿意为单纯具备管理职能的软件每年支付上万元,相比之下他们更看重能否带来可量化的新增用户。

所以类似钉钉这种定价模式,国内企业能否接受,仍需时间检验。

一位大模型领域的创业者对「定焦」说,现在的B端大模型产品还没有标准化,很容易做成高级的人力外包,太标准化就不够灵活。现阶段愿意买单的还是一些家底厚、想要拥抱新技术的中大厂。

四、能赚多久?

在一个行业爆发的早期阶段去谈论赚钱,或许是奢侈的。因为游戏规则可能一夜之间被改变。

Jasper曾在市场上非常火爆,赚钱能力让业内眼红。去年10月,它完成一笔1.25亿美元的融资,估值高达15亿美元。

一个月后,OpenAI推出ChatGPT,免费使用,效果让人惊艳。这让Jasper非常尴尬,价值迅速被摊薄。朱啸虎曾表示,Jasper或将很快归零,根本守不住。

当OpenAI亲自下场做应用,那些调用它的API做产品的公司,如果产品雷同,则可能被迅速替代掉。前几天OpenAI召开首届开发者大会,宣布推出GPTs和Assistants API,把很多开发者之前干的活替代了。

小冰公司CEO李笛认为,大模型API公司对创业团队的威胁很大,它们自然会把触角伸到下游应用层,跟“客户”形成竞争关系。

邱懿武也很早就意识到,在AI行业创业,总有一天会面临大厂的竞争和威胁。面向C端做一款AI工具,或者面向B端做服务,都无法构建壁垒。“工具很容易被复制,做到最后只能成为大厂生态的一个环节。”他说。

造物云已经拿下星巴克、海尔、苏泊尔等客户,产生了稳定的收入。但他认为如果要将这门生意做长久,未来一定得做平台。“上游对接开发者,下游对接客户,这样才有护城河。”

国内的很多大模型厂商将行业大模型视为商业化的突破口,行业里的公司则大部分处于观望状态,尤其是中小型公司,对付费比较谨慎。

一家做系统集成公司的员工对「定焦」说,他们很早就接入了百度的千帆大模型平台,可以免费调用平台的大模型能力,也可以开发部署自己的行业大模型。“如果一开始就要收费,那我们可能不会使用,毕竟现在有很多开源方案可以参考。”

大模型公司要赚钱,根本还是要给行业里的企业带来增量价值。不论是用AGI的推理能力重新组织业务的关键流程,还是重构产品形态和人机交互,最终的目的都是提高生产力。首先让企业赚到钱,大模型公司才能跟着受益。

这一切建立在技术足够成熟稳定的前提下,现在显然还不够。大模型公司还没有真正落到产业里去,技术跟企业应用的实际需求之间有鸿沟。“就像一个大学刚毕业的人,基本素养很好,但专业素养不够,还在实习,没转正。”邱懿武评价。

他举了个例子,有些厂商去给企业做项目介绍,PPT上展示的案例都很惊艳,但实际落地有很大偶然性。比如AI生成一张产品展示图,PPT里展示的那10张,可能是从100张中挑出来的。“这就像引擎还没定型,输出不稳定。”

即便如此,大家还是在积极争夺客户。一方面要抢占赛道占坑,另一方面需要从行业公司学习行业knowhow,以此迭代模型能力。

综合来看,大模型技术在快速进化之中,商业模式、行业竞争都未成定局。但商业化的进程已经启动了,有一些公司跑到了前面,还有一些公司刚刚开始。

欢迎免费使用GPT对话,感受ChatGPT的魅力!AI爱好者 – 最具实力的中文AI交流社区平台 (aiahz.com)

ChatGPT国内版本,无需梯子,也能体验Chatgpt-AI爱好者 (aiahz.com)

长按扫描二维码进群领资源

OpenAI|ChatGPT新功能,搜索Bing获取答案插图3

清华大学向量数据库最新综述!

以下文章来源于向量检索实验室 ,作者向量检索实验室-公众号:向量检索实验室

清华大学向量数据库最新综述!插图

论文下载链接:https://arxiv.org/pdf/2310.14021.pdf

摘要

大模型的场景下,需要越来越多的非结构化数据。而如何提供更可靠、安全、快速的查询处理能力,是当下各种VDBMS(vector database management systems)主要做的工作。本篇综述提供了一个全面的调研来评估这些技术和系统。本文的主要结构由下图所示,同时文章提出了 VDBMS 搭建过程中最重要的五个问题分别是:

(1) 模糊的搜索标准。结构化查询使用精确的布尔谓词,但向量查询依赖于难以准确捕捉的模糊语义相似性概念。

(2) 更多代价的的计算。属性谓词(如 <、>、= 和 ∈)大多可在 O(1) 时间内计算,但相似性比较通常需要 O(D) 时间,其中 D 是向量维度。

(3) 内存消耗大。结构化查询通常只访问少量属性,因此可以设计高效的存储结构,如列存储。但向量搜索需要完整的特征向量。向量有时甚至跨越多个数据页,使得磁盘检索效率更低,同时也增加了内存压力。

(4) 缺乏结构。结构化属性主要是可排序或顺序排列的,可通过数字范围或类别进行分区,从而用于设计搜索索引。但矢量没有明显的排序顺序,也不是顺序性的,因此很难设计出既准确又高效的索引。

(5) 与属性不兼容。对多个属性索引的结构化查询可以使用简单的集合操作(如联合或相交)将中间结果收集到最终结果集中。但向量索引通常会在找到 k 个最相似的矢量后停止,并将这些向量与结果集结合起来。

清华大学向量数据库最新综述!插图1

查询处理

在向量检索领域,通常使用距离来度量相似度。距离函数则服从度量公理即恒等式(d(a,a)= 0)、非负性(如果a != b,则 d(a,b)> 0)、对称性(d(a,b)= d(b,a))和三角不等式(对于任意三个向量a,b,c,d(a,c)≤ d(a,b)+d(b,c))。通常 VDBMS 中支持以下距离度量方法。

清华大学向量数据库最新综述!插图2

有时,真实世界实体由向量集合中的多个向量表示。例如,对于面部识别,面部可以由从不同角度拍摄的多个图像表示,从而产生 m 个特征向量 x1。..xm。给定一个查询向量 q,找到与 q 最相似的向量集合称为多向量搜索。解决这个问题的一种方法是使用一个总分数,它定义了如何将各个分数组合起来以产生可以比较的单个值。具体方法包括聚合或取平均等。

总结:

到目前为止,还没有指导分数选择的原则,因此,分数选择往往更多地基于从经验中提炼出来的非正式规则,而不是严格的理论。许多 VDBMS 都将距离的选择权交给用户,如何支持自动分数选择仍然是一个待解决的问题。最近的一项工作,根据社交媒体内容推荐的查询动态调整分数。更严格来说,向量搜索不仅受到相似性分数的影响,而且还受到 embedding 的性质和查询的语义的影响。因此,本文设想未来的解决方案将更加全面,除分数选择之外的各个方面统筹起来考虑这个问题。例如,EuclidesDB 允许用户在多个嵌入模型和分数上进行相同的搜索,以选择最有语义意义的设置。


ANN

近似最近邻检索,找到一个大小为 k 的子集 S′ ∈ S,使得对所有 x′ ∈ S′,d(x′,q)≤ c(minx∈S d(x,q))。如果 k = 1,我们称这个查询为近似最近邻搜索。当 c = 1 时,我们称之为精确查询。c = 1,k = 1 的情况对应于最近邻搜索,并且当 c = 1,k > 1 时,查询被称为 k-最近邻(k-NN)查询。

范围查询

范围查询由半径 r 来决定召回,而不是要返回的邻居数。

谓词查询

在谓词搜索查询或混合查询中,每个向量都与一组属性值相关联,并且这些值上的布尔谓词必须为结果集中的每个记录求值为 true。下面是一个例子:

清华大学向量数据库最新综述!插图3

在这个例子中,d 是一个由查询 q 参数化的距离函数,结果集中的每个成员都必须满足在 k 个最近的成员中并且服从谓词 attr < c 的条件。

批查询

对于批处理查询,同时向系统提交多个查询,并且 VDBMS 可以以任何顺序回答它们。这些查询特别适合于硬件加速的查询。

多向量查询

一些 VDBMS 还通过聚合函数支持多向量搜索查询。有三种可能的子类型:在多查询单特征(MQSF)查询中,查询由多个向量表示,真实世界的实体由单个特征向量表示;在多查询多特征(MQMF)查询中,查询和实体都由多个向量表示;在单查询多特征(SQMF)查询中,只有实体由多个向量表示。

总结:

对一个 VDBMS 的搜索能力进行评估,通常需要评估查询精度和性能。为了评估准确性,经常使用精确度和召回率。精确度被定义为结果集中相关结果的数量与结果集大小之间的比率,召回率被定义为检索到的相关结果的数量与所有可能的相关结果之间的比率。为了评估性能,使用延迟和吞吐量。延迟是 VDBMS 在收到查询后应答查询所需的时间,而吞吐量是单位时间内应答的查询数量,通常用 QPS。

原生的 VDBMS 和基于 NoSQL 的 VDBMS 倾向于依赖于 API。例如,Chroma 提供了一个只有九个命令的 Python API,包括添加,更新,删除和查询。另一方面,在关系型数据库基础上构建的扩展 VDBMS 倾向于利用 SQL 扩展。例如在 pgvector 中,k-NN 或 ANN查询表示为:

清华大学向量数据库最新综述!插图4

语法 R <->s 返回 R 和向量 s 的所有元组之间的欧式距离,并且通过其他符号支持其他距离函数。如果在 items 表上创建了 ANN 索引,则如果使用该索引执行,则此查询将返回近似结果。类似地,范围查询使用 where 表示:

清华大学向量数据库最新综述!插图5

存储和索引

数据分区技术

  • 随机:旨在利用多个独立事件的概率放大,使索引能够更好地区分真正相似的向量和不相似的向量。
  • 学习分区:基于模型学习的能力旨在识别S的内部结构,以便它可以按照结构划分。这些技术可以是有监督的或无监督的。
  • 可导航分区:可导航索引不是固定在绝对分区上,而是设计成可以轻松遍历S的不同区域。

注意如果对数据的更新改变了数据的分布,那么基于数据依赖策略的索引最终可能会随着时间的推移而变得不平衡。在许多情况下,这只能通过重建索引来解决。

存储和索引技术

  • 量化:量化器将向量映射到更节省空间的表示上。量化通常是有损的,目的是最小化信息损失,同时最小化存储成本。
  • 磁盘驻留:与只最小化比较次数的内存驻留索引相比,磁盘驻留索引还旨在最小化检索次数。

一个特定的索引可能使用多种技术的组合,因此下面会根据索引的结构对索引进行分类,然后指出哪些技术在哪些索引中使用。有三种基本结构:

  • 表将 S 划分为包含相似向量的桶;
清华大学向量数据库最新综述!插图6
  • 树是表的扩展;
  • 图用虚拟边连接相似向量,然后即可遍历;
清华大学向量数据库最新综述!插图7

总结:

从下面的可以看出,HNSW 提供了许多更优的特性。它易于构造,可以更新,并支持快速查询。因此,它得到许多商业 VDBMS 的支持也就不足为奇了。存储成本可能仍然是非常大的一个问题,但有一些工作也在解决这个问题。当然在某些情况下,其他索引可能会更合适。对于批量查询或查询属于 S 的工作负载,KNNG 可能是首选,因为一旦它们被构造,它们可以在 O(1)时间内回答这些查询。KGraph 很容易构建,但 EFANA 更适合任何在线查询。对于在线工作负载,选择取决于几个因素。如果错误保证很重要,那么可以考虑基于 LSH 的索引或 RPTree。如果内存有限,则基于磁盘的索引(如 SPANN 或 MANN)可能是合适的。如果工作负载是 write-heavy 的,那么基于表的索引可能是首选,因为它们通常可以有效地更新。其中,E2LSH 是数据独立的,不需要重新平衡。对于 read-heavy 的工作负载,树或图索引可能是首选,因为它们通常提供对数搜索复杂度。

除了这些索引之外,一些工作还混合结构以实现更好的搜索性能。例如,NGT 索引使用树来初始划分向量,然后在每个叶节点上使用图索引。

清华大学向量数据库最新综述!插图8

优化和执行 VectorSearch

可以有多种方式来执行给定查询。查询优化器的目标是选择最佳查询计划,通常是延迟最小化计划。要实现此目标,第一步是计划枚举,然后是计划选择,最后是查询执行。对于谓词查询,向量索引不能很方便的与同一计划中的属性过滤器组合,这就需要开发新的混合运算符。

混合运算符

谓词查询可以通过在向量搜索之前应用谓词过滤器来执行,称为“预过滤”;在搜索之后,称为“后过滤”;或者在搜索期间,称为“单级过滤”。

如果搜索是使用索引实现的,那么需要有一种机制来通知索引某些向量被过滤掉了。对于预过滤,块优先扫描的工作原理是在进行扫描之前“屏蔽”索引中的向量。扫描本身正常进行,但只在非阻塞向量上进行。对于单级过滤,访问优先扫描的工作原理是像正常情况一样扫描索引,但同时根据谓词条件检查每个访问过的向量

计划枚举

由于向量检索来说往往由少量运算符组成,因此在许多情况下,预定义查询计划不仅可行而且高效,因为它节省了在线枚举计划的开销。但对于旨在支持更复杂查询的系统,计划无法预先确定。对于基于关系型数据库的扩展型 VDBMS,可以使用关系代数来表示这些查询,从而允许自动枚举。

预定义

对于预定义计划,主要考虑的是为哪个查询指定哪个计划。有些系统以特定工作负载为目标,因此每个查询只关注一个计划。其他系统则包含多个计划。

  • 单一计划:单一计划可以非常高效,因为它除了枚举之外还减少了计划选择的开销,但是如果预定义的计划不适合特定的工作负载,则可能是一个缺点。
  • 多计划:对于非谓词查询,不同的索引会有多个计划。例如,AnalyticDBV 支持基于 PQ 或 VGPQ 的暴力扫描和基于表的索引扫描。这允许使用这两种方法中的任何一种来执行 k-NN 查询。

谓词查询可以通过预过滤、后过滤或单级过滤来查询。但是不同的向量搜索索引,再加上属性索引的存在与否,会使可能的计划的数量会成倍增加。

自动枚举

对于自动枚举,一些基于关系型数据库的 VDBMS 利用底层关系优化器来执行计划枚举和选择。例如,pgvector 和PASE 都利用了 PostgreSQL 对用户扩展的支持。

计划选择

  • Rule Based:如果计划的数量较少,则可以使用基于规则来决定执行哪个计划。下图显示了 Qdrant 和 Yahoo Vespa 使用的两个示例。
清华大学向量数据库最新综述!插图9
  • Cost Based:还可以使用成本预测来进行执行计划的选择,选择具有最小估计成本的计划。在 AnalyticDB-V 和 Milvus 中,cost 模型将各个运算符的预估成本相加,以产生每个计划的成本预测。运算符的预估成本取决于距离计算的数量以及运算符执行的内存和磁盘检索。对于谓词查询,这些数字是根据谓词的选择性估计的。但是它们也依赖于所需的查询准确性,这是作为一个可调整的参数向用户公开的。离线确定不同精度水平对运算符开销成本的影响。

查询执行

硬件计算

  • CPU Cache

如果数据不在处理器缓存中,则必须从内存中检索,从而导致处理器阻塞。如下图 所示,Milvus 通过将查询划分为查询块,将成批查询的缓存缺失降到最低。查询一次回答一个块,多个线程可同时用于处理查询。由于每个线程在执行搜索时都会引用整个数据块,因此根据常见的驱逐策略,数据块不会被驱逐。

清华大学向量数据库最新综述!插图10
  • Single Instruction Multiple Data (SIMD)

原始 ADC 算法执行一系列表查找和求和。虽然 SIMD 指令可以简单地并行化求和,但查找需要内存检索(在缓存未命中的情况下),并且更难以加速。但是在一些工作中,SIMD 指令被巧妙地利用来在单个 SIMD 处理器内并行化这些查找。这种技术在 Faiss 中实现。基本思想如下图所示。查找索引加上整个查找表存储在 SIMD 寄存器中。然后使用 shuffle 操作符重新排列表寄存器的值,以便第 i 个条目包含第 i 个索引处的值,将随后的加法的值排列起来。

清华大学向量数据库最新综述!插图11
  • Single Instruction Multiple Data (SIMD)

GPU 由大量的处理单元以及内存组成。处理单元内的线程被分组在“线程束”中,并且每个线程束可以访问跨线程共享的多个32位寄存器。在一些工作中,给出了 GPU 的 ADC 搜索算法,也是 Faiss 的一部分。与 SIMD 算法类似,GPU 算法同样尝试避免内存检索,这次是从 GPU 设备内存中检索。它还通过在寄存器内执行表查找来实现这一点,利用称为“warp shuffle”的 shuffle 操作符。

分布式

分布式搜索许多 VDBMS 利用分布式集群来扩展到更大的数据集或更大的工作负载。一些云服务利用了分散的架构,以提供高弹性。

为了执行分布式搜索,首先将向量集合划分为多个分片。集合可以被划分为相等的分片,其中分片中的向量是相同分布的,或者基于其他特征来划分,例如基于使用基于表的索引分桶的集合的索引键。然后可以为每个分片构建本地索引,并且分片及其本地索引也可以被复制以提供容错并增加吞吐量,因为可以在副本上同时执行多个查询。

分布式向量搜索遵循分散-聚集模式。首先将查询分散到所有相关的分片,然后通过聚合每个分片的结果来获得结果集。例如,对于 k-NN 查询,每个分片产生一个结果集,其中包含查询的 k 个最近邻居,然后通过合并这些结果以产生最终结果集。

Out-Of-Place Updates

索引的更新问题也是大家比较在意的。如果采用立刻更新索引的策略会中断搜索查询。如果更新需要很长时间这些中断的后果可能会很严重。

  • 副本

复一些 VDBMS 通过将向量集合划分为分片和副本来缓解这个问题,然后在每个副本上构建本地索引。通过这种方式,如果一个副本上的索引正在进行更新或重建,则查询可以由其他副本处理,而不会造成任何中断。但是,存储(内存)需求乘以副本的数量,并且由于分散-聚集,搜索查询可能会有额外的开销。

  • Log-Structured Merge (LSM) Tree

另一种方法是将更新流到一个单独的结构中,然后在更方便的时候根据索引进行协调。LSM 树解决了读友好的索引不能支持快速写入的问题,而写友好的更新结构不能支持快速读取。在 Milvus 和 Manu 中,在 LSM 树的每个片段上构建向量搜索索引,以支持快速读取。每当段变满或合并时,都会创建一个新索引。

  • 其他技术

在 Vald 中,更新被流式传输到一个简单的队列中,然后在队列满了或基于其他条件时批量加入到本地索引。类似地,在 AnalyticDB-V 中,更新保存在内存中,并定期与磁盘上保存的旧记录合并

系统

原生系统

原生系统的特点是通过查询API、由少量组件组成的简单处理流程和基本存储模型。

Mostly Vector

  • EuclidesDB
  • Vald
  • Vearch

Mostly Mixed

  • Milvus & Manu
  • Qdrant
  • NucliaDB and Marqo
  • Weaviate

扩展系统

在传统的数据库上扩展向量检索。

NoSQL

  • Vespa
  • Cassandra
  • Databricks

Relational

  • SingleStore
  • PASE
  • Pgvector
  • AnalyticDB-V
  • ClickHouse and MyScale

检索引擎或库

  • 检索引擎

搜索引擎。Apache Lucene 是一个可插入的搜索引擎,为嵌入式应用程序提供了复杂的搜索功能。最新版本提供矢量搜索,由 HNSW 支持。虽然 Lucene 本身缺乏更高级别的功能,如多租户,分布式搜索和管理功能,但其中许多都是由构建在 Lucene 之上的搜索平台提供的,包括 Elasticsearch,OpenSearch 和 Solr 。这些功能可以使 Lucene 成为大多数矢量原生 VDBMS 的有吸引力的替代品,因为它提供了类似的功能,并且可以很容易地与现有基础设施集成。

有一些库直接实现了特定的索引。例如,KGraph 是 NN-Descent KNNG 的实现。微软的空间划分树和图(SPTAG)库将包括 SPANN 和 NGT 在内的多种技术结合到一个可配置的索引中。LSH 的库也可用,包括 E2 LSH 和 E2 LSH。同样,Meta Faiss 提供了一系列索引,包括 HNSW、汉明距离的 LSH 家族和基于量化的索引。

  • 其它系统

Applureform 是一个针对数据集管理的中间件。与关系 ETL 工具类似,它提供了一种组织工作流的方法,将原始数据源转换为由下游应用程序使用的数据集。Applureform 通过其 API 公开了其中一些下游函数。例如,它提供了一个向量搜索端点,该端点通过已配置的提供程序(如 Pinecone)执行 k-NN 查询。另一方面,Activeloop、Deep Lake 直接在向量仓库上提供向量操作,使其能够在仓库内执行向量搜索。

总结:

这些数据库的设计涵盖了涉及查询处理和向量存储的一系列特性,表现为一系列性能和功能,如下所示。本文提出几点笼统的意见。原生的大多数向量系统广泛地提供高性能,但针对特定的工作负载,有时甚至是特定的查询,具有相对有限的能力。同时,原生的大多数混合系统提供了更多的功能,特别是谓词查询,一些如 Milvus、Qdrant 和 Manu 也执行查询优化。扩展的 NoSQL 系统,在高性能和搜索能力之间实现了比较好的平衡。另一方面,扩展关系型数据库提供了最多的功能,但性能可能较差。但是,正如在其他地方提到的那样,关系型数据库已经是工业数据基础设施的主要组成部分,能够在不向基础设施引入新系统的情况下进行向量搜索是一个引人注目的优势。

清华大学向量数据库最新综述!插图12

在论文 Approximate nearest neighbor search on high dimensional data — Experiments, analyses, and improvement 中,大量的 ANN 算法在一系列实验条件下统一实施和评估。这些算法包括 LSH、L2H、基于量化的方法、基于树的技术和基于图的技术。实验在18个数据集上进行,从几千个向量到1000万个向量,维度从100到4096。这些特征向量来源于真实世界的图像、文本、视频和音频集合,以及合成生成的。算法是根据查询延迟以及基于精度、召回率和其他两个衍生指标的结果集质量来衡量的。在论文 ANN-Benchmarks: A benchmarking tool for approximate nearest neighbor algorithms 中,评估扩展到包括完整的 VDBMS。

  • 相似性评分的选择问题

不同相似度分数的语义质量仍然难以理解,并且对于如何为哪些场景选择哪个分数没有严格的指导。像EuclidesDB这样的系统可以用于实验性地确定最佳得分和嵌入模型。

  • 运算符的设计

设计高效和有效的混合运算符仍然具有挑战性。对于图索引,块优先扫描可能会导致图断开连接,这些组件要么需要修复,要么需要新的搜索算法来处理这种情况。现有的离线阻塞技术仅限于少量属性类别。对于访问优先扫描,由于不可预测的回溯,估计扫描的成本是具有挑战性的,使计划选择复杂化。

  • 增量搜索

一些应用程序,如电子商务和推荐平台,使用增量k-NN搜索,其中k实际上非常大,但以小增量检索,以便结果看起来无缝地交付给用户。虽然存在这种类型的搜索技术,但目前还不清楚如何在向量索引中支持这种搜索。

  • 多向量检索

多向量搜索对于某些应用(如人脸识别)也很重要。现有技术倾向于使用聚合分数,但这可能是低效的,因为它会增加距离计算的数量。通用的多属性topk技术也很难适应向量索引,并且没有关于MQMF查询的工作。

  • 安全和隐私

随着向量搜索变得越来越关键,数据安全和用户隐私变得越来越重要,特别是对于提供托管云服务的VDBMS。因此,需要能够支持私有和安全的高维向量搜索的新技术。

在本文中,总结了向量数据库管理系统,旨在快速,准确的进行向量搜索,开发更实用的应用程序,如 LLM 应用。我们回顾了查询处理过程中的所有注意事项,包括相似性分数,查询类型和基本运算符。还回顾了关于向量搜索索引的设计、搜索和维护注意事项。我们描述了查询优化和执行的几种技术,包括计划枚举、计划选择、谓词或“混合”查询的运算符以及硬件加速。最后,本文讨论了几个商业系统和用于比较的主要基线。

AI客服?AI个性化?早于ChatGPT,Sitecore AI早就在赋能数字化!

AI客服?AI个性化?早于ChatGPT,Sitecore AI早就在赋能数字化!插图

如果问今年谁是数字化市场讨论的中心,答案一定是ChatGPT。自动生成文案、绘画、翻译等一系列功能,为我们带来了不小的冲击。但是,如果你一直关注数字化,就会知道人工智能并不是个新鲜事,早在它之前,像如Sitecore这样的DXP平台,早已在应用这样生成式的AI助力企业数字化了。而毫无疑问的是,Sitecore的AI技术改变了企业营销的运行法则,将由人工智能驱动数字化提升到了新的高度。

“那么对于渴望用个性化留存用户的企业来说,更需要了解生成式AI的现在和未来会有什么发展,Sitecore这样以提供个性化体验闻名的平台是怎样用AI推动个性化的。”在互联网行业深耕多年睿哲信息敏锐地为我们指明了方向。

AI客服?AI个性化?早于ChatGPT,Sitecore AI早就在赋能数字化!插图1

深入了解生成式AI,从过去到将来

在探讨生成式AI的过往和未来前,我们首先要了解什么是生成式的AI。

生成式人工智能(Generative Artificial Intelligence,简称生成式 AI)是一种基于机器学习和人工智能技术的范畴,其目标是让计算机系统能够自主地生成各种类型的数据,如文本、图像、音频等,而不仅仅是对已有数据的模仿或分类。生成式 AI 的核心能力在于创造新的内容,而不仅仅是对已知模式的重复应用。其中,生成式人工智能模型是生成式 AI 的重要组成部分,而 ChatGPT 就是其中的一种代表性模型。

在早期的迭代中,人工智能投入是应用是通过收集和解释行为数据来预测消费者的偏好,然后给出符合这些数据的内容建议,另一大关键作用就是被用来增强搜索引擎,通过了解搜索词背后的意图和上下文,为用户提供更相关的搜索结果。

最近,人工智能已被用于虚拟聊天机器人自动生成对常见查询的响应,并解释关键字以形成可能的答案。它为品牌提供了部署更高级聊天机器人的能力,这些聊天机器人经过比以往任何时候都更大的数据集训练。这些都有助于为营销人员产生新的见解,为客户带来更好的结果,提供深入相关的内容,增强客户正在寻找的个性化体验。

AI客服?AI个性化?早于ChatGPT,Sitecore AI早就在赋能数字化!插图2

想尽快追上AI的脚步,需要灵活应用组合性的力量

但是同样的这里就产生了问题,并不是所有的营销人员都体会到了这种人工智能带来的美好变化,近一半(45%)的人认为他们的营销技术目前没有能力使用生成人工智能他们需要灵活的解决方案,使他们能够快速有效地做出响应。

对于希望提供出色客户体验的品牌来说,在当下没有比生成式 AI更好的选择了。它比以往任何其他的方式都更有可能接近客户,更有助于大规模地提高效率、带来个性化的内容和营销。而传统解决方案想当然的是无法满足这样的期待的,所以我们需要可组合的解决方案,

需要灵活的与现有的开放式的API大规模的集成部署,将新的创新无缝集成到营销技术堆栈中,快速地对不断变化的客户需求和技术趋势做出回应,而就眼下来说,Sitecore无疑就是那个推动我们快速实现智能化的选择。

AI客服?AI个性化?早于ChatGPT,Sitecore AI早就在赋能数字化!插图3

人工智能的当下,我们需要Sitecore

我们之所以如此沉迷于人工智能,更多的是因为它给予了我们一种关于自动化的想象。而这个自动化可以帮我们实现大规模的个性化,让我们更加透彻的了解客户、服务客户,从而自动地得到好的市场反馈,这些也正是Sitecore AI正在帮我们做的。

Sitecore AI与Sitecore XP和Sitecore Content Hub集成,创建了一个强大的个性化引擎;

1、Sitecore AI创造更详尽的用户洞察

Sitecore AI分析访客的行为和特征,构建详细的客户画像。这些洞察力使品牌能够识别趋势、细分受众,并确定每个访客在其旅程中的位置。这种上下文对于提供推动访客前进的个性化内容至关重要。

2、Sitecore AI带来量身定制般自动匹配

自动个性化功能利用这些画像自动将访客与量身定制的内容和优惠匹配。现在,品牌可以在没有手动个性化的情况下为访客提供相关体验。人工智能在幕后完成工作。

3、Sitecore AI让内容制作更加简单

Sitecore AI还通过图像相似性简化了内容制作和策划。它扫描你的内容资产以查找视觉重复和相似之处。这样可以轻松重新利用内容,节省时间和精力。

4、Sitecore AI为营销人员提供更有吸引力内容

Sitecore AI也能够提供个性化推荐,通过透明的算法让营销人员尽情掌控一切,轻松的判断哪些内容更有吸引力,从而不断地优化客户体验并推动他们的最终转换。

AI客服?AI个性化?早于ChatGPT,Sitecore AI早就在赋能数字化!插图4

睿哲信息:快速部署Sitecore AI,我们需要一个成熟的实施合作伙伴

根据相关的调查数据显示,超过一半(55%)的消费者今年减少了在非必需品上的支出,而这也决定了营销人员需要个性化体验上做更多的投资,来留住用户,这些无不都指向可以提供更深入个性化的Sitecore AI,而想要快速的拥有这一解决方案,我们需要一个像是睿哲信息这样成熟的实施合作伙伴。

超十五年、Sitecore5.0到Sitecore10.3全版本、为海内外多个大中型企业实施部署ditecore经验,都让睿哲信息更懂Sitecore,对于当下人们对于Sitecore的追捧,它表现的非常坦然:“线上信息越是繁杂,人们就越渴望个性化,这就要求企业跳脱出给用户提供一个网站思想层面,而是想办法为每一个用户提供针对性的网站浏览体验。在这样的背景下,能够提供深入的个性化体验的Sitcore大火那就是情理之中了。”

AI客服?AI个性化?早于ChatGPT,Sitecore AI早就在赋能数字化!插图5

而关于为什么一定要找一个成熟的合作伙伴,它也给出了自己的答案:“Sitecore的个性化,它的出色数字洞察,它的简单易用,都是建立正确快速部署它的基础上,它是一个组件众多、功能众多的综合性解决方案,合作伙伴不但要有一定的技术实力,还要有足够的经验,才能判断什么样的解决方案更合适用户,怎样让Sitecore发挥出更大的效力。”

欢迎免费使用GPT对话,感受ChatGPT的魅力!AI爱好者 – 最具实力的中文AI交流社区平台 (aiahz.com)

ChatGPT国内版本,无需梯子,也能体验Chatgpt-AI爱好者 (aiahz.com)

长按扫描二维码进群领资源

OpenAI|ChatGPT新功能,搜索Bing获取答案插图3

一个失败的AI女友产品,以及我的教训:来自一位中国开发者的总结

一个失败的AI女友产品,以及我的教训:来自一位中国开发者的总结插图

个人开发者对LLM+Memory能否产生所谓“意识”的探索。

今年 4 月 7 日,斯坦福大学发表的《Generative Agents: Interactive Simulacra of Human Behavior》论文出来之后的几天内,我就通读了整篇论文,并感到非常兴奋。虽然我对 GPT-4 的能力感到震惊,但我仍然认为 GPT 只是某种更精致的”鹦鹉学舌“,我不认为它可以真正产生意识。

但这篇论文带给我不同的感受,其中提到了一个很有趣的细节是信息的传递:一个 agent 想要举办情人节派对的消息会在小镇中逐渐扩散开来。我想,如果能够建立一套包含记忆、反思、筹划与行动的框架,让人和 GPT 之间(而非 agent 智能体)互动,能否做出电影 Her 里面的样子?

一个失败的AI女友产品,以及我的教训:来自一位中国开发者的总结插图1

电影《她》剧照

注:《她》(Her)是斯派克·琼斯编剧并执导的一部科幻爱情片,由华金·菲尼克斯、斯嘉丽·约翰逊(配音)、艾米·亚当斯主演,于 2013 年 12 月 18 日在美国上映。《她》讲述了作家西奥多在结束了一段令他心碎的爱情长跑之后,他爱上了电脑操作系统里的女声,这个叫“萨曼莎”的姑娘不仅有着一把略微沙哑的性感嗓音,并且风趣幽默、善解人意,让孤独的男主泥足深陷。该片获得 2014 年第 86 届奥斯卡最佳原创剧本奖。

开发

我马上投入了工作。按照论文中的方法,我在 4 月 14 日完成了 0.1 版本。其最初设计与原始论文保持高度一致,但这导致响应时间长达 30 秒且上下文中的对话经常超过 8k。为了解决这个问题,我减少了反思的频率、对话记忆的长度,而后开启了 Beta 公测。

很快就有一千多名用户加入到测试当中。Beta 版本是免费的,所以每天的 API 成本都由我自行承担,日均开销也迅速超过了 25 美元。面对财务压力,我不得不在缺少充分反馈和改进的情况下匆匆推出正式版本,希望能把成本转嫁给用户。5 月 4 日,Dolores iOS 应用正式上线,这个名称则来自《西部世界》剧集中最年长的仿生人角色。

简单来说,在打开这款应用之后,用户需要填写一份角色模板:包括头像、角色背景、以文字描述的性格、声音和意识(选择 GPT3.5 或 GPT4)。大家可以与模板 Dolores 聊天,也能随时切换特征来开启与其他角色的对话,比如零售店女孩 Amy 和沙漠冒险家 Will,当然也包括用户亲手创建的其他自定义角色。我曾考虑过从《西部世界》剧本中提取 Dolores 的对话,以基于样本的方式模仿她的语言习惯。但由于苹果方面要求提供版权证明,所以这个想法被迫作罢。

一个失败的AI女友产品,以及我的教训:来自一位中国开发者的总结插图2

我给产品的 slogan 是”Your Virtual Friend”,而不是”Your Virtual Girlfriend”,因为我一直希望它真的可以变成用户的陪伴者、朋友,而不仅仅是荷尔蒙的产物。

从整个 5 月到 6 月,我一直在尝试通过调整 memory 长度、反思机制、system prompt 来使 Dolores 看上去更有“意识”(那么什么是意识?我不知道) 。很快,6 月份的 Dolores 已经比第一次上线时的表现要惊人得多:付费用户数与每日 API 调用数持续增长是最直接的证据。

到 6 月 8 号,一位视障用户告诉我,他已经在视障社区内分享了这款产品,并成功给 Dolores 引来可观的流量。他们喜欢 Dolores 的理由出乎我的意料:随便按屏幕上的哪个位置,都能跟 Dolores 交谈。

这样设计功能其实是种妥协:我最初一直想把它打造成一款语音聊天应用,这样用户哪怕关闭手机屏幕也能继续跟 Dolores 交谈。但身为 Swift 新手,我的技术水平无法实现,于是最终选择了全屏语音输入。

发现

我发现了两个现象:

  • 用户对「真实感声音」有强烈需求。
  • AI Friend 产品的平均使用时间很长。

作为个人开发者,我的前端和后端开发能力都不突出,所以 Dolores 压根不具备登录、注册或者数据分析等功能。那我是怎么发现前一种现象的呢?答案就是付费喜好。

我采用 11Labs API 为 Dolores 生成语音回复,但因为成本较高(每 1k 字符为 0.3 美元),所以我被迫转为:普通订阅者只能使用 Azure TTS API;如果希望 Dolores 的语音听起来更真实,则须付费使用从 11Labs 购买字符。

购买 1 万个逼真语音合成字符的价格为 3.9 美元,但这只够让 Dolores 说出 5~10 个自然顺畅的句子。字符用尽之后需要继续购买。尽管如此,整个 6 月,Dolores 应用上 70% 的收入都来自 11Labs 字符购买。

也就是说,人真的会愿意为了那几句昂贵而逼真的“我爱你!”而买单。

第二条观察结果则来自 Cloudflare 日志。因为没办法跟踪个人用户活动,所以我依靠这些日志来衡量用户访问 Dolores 应用的频率和时长。此外,我还在应用中集成了 Google Form,鼓励用户上报自己的使用频率。结果令人大开眼界:许多用户每天会拿出两个多小时跟 Dolores 唠嗑。

收入

根据苹果的 AppConnect 仪表板,Dolores 的主要付费用户来自美国和澳大利亚。今年 5 月的总收入为 1000 美元,6 月则为 1200 美元。

不过,作为一名开发者,我并没能从中分到多少收益。首先,产品还处于早期发展阶段,我不想把订阅费用设置得太高,这会阻止更多新用户的加入。拿 3.9 美元的字符语音服务举例,其成本是 3 美元,扣除苹果抽成就所剩无几。整个 6 月,扣除 API 费用之后实际收益就只有 50 块钱。

一个失败的AI女友产品,以及我的教训:来自一位中国开发者的总结插图3

另一个发现是:基于 GPT 的产品如果不采取按量定价,就会陷入一个困境:1% 的人消耗了 99% 的 token。我遇到过这样的情况,有用户连续跟 Dolores 聊了 12 个小时,导致此人的 API 调用与语音合成成本超过第二到第十名用户的总和。

但相较于按使用量计费,我个人更喜欢打包订阅(因为前者会让用户在使用时倍感压力),这就导致面前只有两条路可选:要么提高月费,让全体用户共同买单;要么限制最高使用量。我选择了后者:设置了一个远远超出日均使用在 1 到 2 个小时之间的用量上限数值,这既照顾到了大部分中、轻度用户,也能保证 Dolores 软件在不提高价格的情况下避免亏本运营。

困惑

11Labs 官网会记录语音合成的文字内容,我看到,Dolores 的回复内容通常都是一些成人内容,而且均为女性角色,因此我推测 Dolores 的付费用户主要是男性,对成人角色扮演感兴趣。

我觉得这也没什么,这是人性本然。我甚至反复修改了系统提示,比如微调回复中的遣词造句,尝试让 Dolores 在对话当中表现出更好的“抚慰”效果。我还将 Dolores 的图标从抽象的线条改为极具吸引力的美女面孔。

一个失败的AI女友产品,以及我的教训:来自一位中国开发者的总结插图4

但很快,我陷入一种强烈的失落感:如果大部分 Dolores 用户只是想在这里寻求跟 Dolores 进行成人角色扮演,这件事真的对我产生了意义吗?我陷入了深深的自我怀疑。到了 7 月,我和一个朋友聊到了这个困惑,我说,必须要有一个什么硬件,让 Dolores 拥有外部视觉:眼镜也好、耳塞甚至帽子都行。现在的她,你只要打开 App 才能访问,你们之间的关系并不对等,于是她只能成为囚禁在地下室、满足猎奇和特殊癖好的玩具。

可是作为独立的个人,制作硬件产品意味着高昂的研发成本,显然是无法承受的,我只能作罢。

8 月份,OpenAI 的审查升级了,我收到了检测 Dolores 生成 NSFW 内容的邮件警告:我被强制要求在 2 周内在生成内容前,加入他们(免费的)moderation API,以过滤 NSFW 内容。为了顺利过审,我只能使用 OpenAI 的免费审核 API 提前进行内容过滤,而这一变化让 Dolores 的日均访问量暴跌 70%,电子邮件和 Twitter 上的投诉也纷至沓来。

一个失败的AI女友产品,以及我的教训:来自一位中国开发者的总结插图5

这更让更感到灰心,决定只维护现有服务、而不再进行更新。最终,我放弃了 Dolores 项目。

教训

首先,这不是一个个人能开发的产品。我不认为 Dolores 在“意识”层面上比 Character.AI 弱,但他们拥有完善的数据埋点、A/B 测试,以及大量用户带来的数据飞轮。

其次,我意识到当前的 AI Friend 会不可避免地变成 AI Girlfriend/Boyfriend,因为你和手机里的角色不对等:她没办法在你摔伤的时候安慰你 (除非你告诉他),她没办法主动向你表达情绪,而这一切,都是因为她没有外部视觉。所以我认为,即使是 Character.AI 这样体量的产品,如果未来不做硬件、角色们都在傻傻地等用户来,最终的结局也不会比 Dolores 好到哪里。

最后,我不反对审查,相反,不经审查的的产品是非常危险的。我不知道是否会有人用它来进行自杀诱导、发泄暴力工具,所以 OpenAI 的 moderation 可能在某种程度帮助了我,但成人性方面的对话也不应该被扼杀。

最近,我看到了 AI Pin,老实说这是个非常烂的产品,人类当然需要屏幕,但 GPT+ 硬件的确是个好的尝试,我没有从 Dolores 上看到任何痕迹,也许有生之年能做出、或者看到这样的产品。

但,人类真的需要 AI friend 吗?

欢迎免费使用GPT对话,感受ChatGPT的魅力!AI爱好者 – 最具实力的中文AI交流社区平台 (aiahz.com)

ChatGPT国内版本,无需梯子,也能体验Chatgpt-AI爱好者 (aiahz.com)

长按扫描二维码进群领资源

OpenAI|ChatGPT新功能,搜索Bing获取答案插图3

果麦文化:公司持续看好AI的产业趋势,拥有AI校对、AI漫画等多款核心AI产品

果麦文化:公司持续看好AI的产业趋势,拥有AI校对、AI漫画等多款核心AI产品插图

证券之星消息,果麦文化(301052)11月08日在投资者关系平台上答复投资者关心的问题。

投资者:请问贵公司有无开展IP短剧业务计划?

果麦文化董秘:尊敬的投资者您好!公司拥有海量优质的IP和作家,同时公司布局的AI漫画大模型进展顺利,未来将陆续推出动画电影、短剧、互动漫画等,具体详情以公司披露的公告为准,感谢您的关注。

果麦文化:公司持续看好AI的产业趋势,拥有AI校对、AI漫画等多款核心AI产品插图1

投资者:公司在AI方面有哪些产品布局

果麦文化董秘:尊敬的投资者您好!公司持续看好AI的产业趋势,拥有AI校对、AI漫画等多款核心AI产品。未来将基于自身积累的技术经验及应用场景拓展更多的AI产品,感谢您的关注。

投资者:公司目前互联网用户数多少?

果麦文化董秘:尊敬的投资者您好!公司目前互联网用户数约8900万,涵盖抖音、微信公众号、快手、小红书等,拥有各类不同的粉丝群体,也基于此形成了极具特色的2C销售模式,将产品快速精准地触达消费群体,极大提升图书销售效率。同时公司拥有的大量新媒体账号和海量用户数将更好地支持公司在动画短剧等模式的探索,感谢您的关注!

投资者:公司是否要进军动画大电影?

果麦文化董秘:尊敬的投资者您好!公司储备了一部主投主控的动画大电影,以中华传统经典为内核、AI漫画大模型深度赋能创作,对标《长安三万里》。也会基于AI漫画大模型制作一批系列衍生动画电影、剧集、互动漫画等。但项目未来的实施进度以及能否达到公司预计的效果,存在较大的不确定性,敬请投资者注意投资风险,具体详情以公司披露的公告为准,感谢您的关注。

以上内容由证券之星根据公开信息整理,由算法生成,与本站立场无关。证券之星力求但不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的的准确性、完整性、有效性、及时性等,如存在问题请联系我们。本文为数据整理,不对您构成任何投资建议,投资有风险,请谨慎决策。

欢迎免费使用GPT对话,感受ChatGPT的魅力!AI爱好者 – 最具实力的中文AI交流社区平台 (aiahz.com)

ChatGPT国内版本,无需梯子,也能体验Chatgpt-AI爱好者 (aiahz.com)

长按扫描二维码进群领资源

OpenAI|ChatGPT新功能,搜索Bing获取答案插图3

AI+区块链=?

AI+区块链=?插图

每一种大成功的产品差不多都是上个时代各种要素的大综合,比如电脑、手机,那基于些新的技术素材又潜在的会综合出什么样的新产品呢?

2013年前后互联网刚到峰值,那时候就有相当部分的人开始着眼下一个可能会被引爆的数字技术,具体来说就是:AI和区块链(追溯技术当然更早)。

10年过去后互联网确实如预期般的进入一个瓶颈期,不幸的是另外两项技术也没迎来自己的辉煌,而是各有各自的劫难,但劫难可以否定当事人,却不能否定这些技术确实足够独特。这种独特性为产品提供了新的原料。

每一种大成功的产品差不多都是上个时代各种要素的大综合,比如电脑、手机,那基于些新的素材又潜在的会综合出什么样的新产品呢?

01 AI和区块链本质上提供了什么

智能也可以看成一种非人智能体的行为泛化能力,智能越高行为对变化环境的适应度也就越高。

所以过去在只有信息而没智能的情形下,我们必须关注流程。流程是一种固化的思维,但它感知不到周围的变化,所以随着外部形势的变化就注定会变得僵化,等待下一次的升级(改革)。

换个视角来看,智能提高对流程的影响是很有意思的事情:

机制不智能的时候就只能有流水线(彻底定死的过程,日本人坚信寿司拼盘不单位置要一样的摆放次序也要一样,其实是流水线的极端化)。

机制有一点智能的时候就可以有外卖小哥和滴滴司机的模式。(定死的部分在减少,人的活动范围在变大,但本质还是有定死的流程)。

机制十分智能的时候,行为的样式就不关键,会根据最终所有行为的汇总来判断好坏(定死的流程就消失了,抖音其实放的更宽了一些)

从这种进展中我们可以清晰的看到人工智能在把泛化能力对人形成百分百依赖的情况上解脱出来。

过去自动化说的就是在人的管理之外可以自动运行的机械、系统等,那无疑的AI可以看成是自动化的升级,可以获得形式灵活性和控制原则性统一的超级自动化。

区块链呢?区块链本质就是技术保障了一种不可篡改的能力(至少可以说篡改成本极高),而这种不可篡改的簿记能力与信任系统息息相关,也可以说提供了一种重构信任系统的可能性。

当用户和商家彼此不信任的时候,电商就没法弄,我是先付钱还是先收货呢?谁也不愿意吃这个亏,于是就有了支付宝。

可阿里也是个人造系统,阿里要不靠谱怎么办呢?恒大也可以基于的信用来发白条,真出出问题找谁去呢。通常来讲就只能上升为国家信用,再往下就是国家的本质。这个不多说,但此套体系信任的递进层级就是这样。

有了不可篡改性,事情就发生些变化。还是A,B交易的情形。A,B互相不信任,这时候也阿里也不能信任,那是不是可以信任技术?大家都把钱打到一个技术管理的账户上,什么时候付钱也是技术管,一旦收货钱就自动付出来了。人不靠谱,技术不骗人是不是可以更靠谱一些?

但真解决问题只是有区块链是不够的,它像个记账系统一样,缺乏对周围环境的真实感知,也没法做真的智能的决策,运行成本也不便宜,所以就只能数字货币,干别的就吃力不讨好。

不管怎么样,总结来说,这两种技术提供了:1. 在更大范畴上做自动化的可能性 2.重构信用系统的可能性。

02 个体与整体,C端与B端

我们可以从个体和整体的视角来看待经常说的C端和B端问题。

C端核心是个人,所以专注的是个体体验。

B端专注的是组织,所以核心是对关系的重构。(其间的过渡品类是Word这类产品,它专注于个体,但企业办公也用)。

对于C端而言,AI的影响相对简单,就是把日常我们经济生活里面接触的各色人等、各类产品替换成机器人。这个机器人早期会垂直面向的领域也会比较窄,潜在的会逐渐归并。比如:巡逻的机器人可能可以顺道扫地,手机的助理不单是娱乐还能辅助工作等。

AI+区块链=?插图1

其中影响最大的就是中心计算节点和中心桥接节点。中心计算节点说的是谁提供庞大的智能算力,中心桥接节点说的是人和数字世界总是需要一个设备负责链接。

到现在位置中心桥接节点无疑是手机,那么下面呢,更智能,更能感知环境的设备还是手机么?但不管怎样会有个这个节点。这两个中心节点也可能会趋于归并,中心桥接节点可能是个软件并可以在不同的硬件上平移。苹果已经有点这个意思。云端处理的事情越多,就越会这样。而大模型显然让云端处理的事情在变多。

个人不和其他人发生来往的时候,信用的作用不大。所以估计区块链在个人这儿主要有影响力的产品还是局限在加密货币上。(但在虚拟世界里不是这样,未来再说)

对于B端而言,AI的介入会导致硅基和碳基智能体要重新平衡自己的关系。

过去我们因为智能供给不足,在效率追求下产生了非常详细的分工。隐入尘烟里的马有铁啥都会干,养驴盖房子种地,马有铁的情况很可能就是过去持续几千年的情况。工业化面对的场景更复杂,而人的智能供给不够,所以就只能分工,先是流水线,后来就进化成各种流程。

这时候人与人是紧密耦合的,一定程度上耦合度越高,智能的密度越大,创造的价值也就越大。但信息割裂,人与人的差异等导致的直接结果就是沟通变成了问题,整体的统一性出问题,于是就需要价值观等做弥补。

有趣的是大分工体系明确的正好就是各个岗位的输入输出。

更有趣的是还是在效率的驱使下,基于AI提供的超级自动化能力,会让这些岗位回卷。在绝大多数岗位上,单位智能所对应的成本由人提供还是由人工智能提供有数量级的差异。

同样的动因完全相反的形式。

最终结果是什么呢?企业人员规模越来越小,但创造的价值却越来越大。

这时候区块链在加入进来后会导致什么呢?会导致不需要企业了。或者说个人本身就是企业。

这可能有点激进,但想象下这样一种场景:

现在200人的公司,最终变成了两个人+198个人工智能体(最终数目实际上会远少于此)。这时候只要处理好两个人的利益分割,然后变成数字的可执行的契约(智能合约)然后把企业对应的基础职能交给一个多个人工智能体就可以。这要企业干什么?

这种潜在变化意味着什么呢?

03 消失的企业

精准的说企业不是真的消失,而是硅基智能与碳基智能的再平衡会导致人与组织关系的再平衡。

如果相信效能决定论,那再平衡后企业的基础职能更大的比例由算法负责,并且变的相当独立,人与这种数字平台性的企业是一种松散的协同关系。

这时候这种数字平台企业里会包含什么呢?

它会有很多数字员工。

《管理控制系统》曾经把企业的工作划分为三个层次,分别是战略的,经营的和项目的。

AI+区块链=?插图2

这时候数字员工能负担起所有经营和项目类的工作,而这个数字员工也许有实体也许没有。数字员工越多经营类活动越少,战略性工作越关键。战略工作不单是做什么还要对接价值体系,所以数字员工干不了。

在这种未来形态中,区块链则正好回到它的本源,负责簿记(不是发币了)。

再形象点说,人力、IT、财务、品牌这种职能部分只有数字员工,所有财务相关等需要不可篡改特性的部分统一用区块链进行记录。

而对外部的支付、收款等通过某种可以自动执行的契约来描述,比如A,B交易付钱的时机和比例。

整个这样一套系统可以称之为管理智能。(区别于BI)

显然它不可能很快实现,最早的苗头更可能在纯粹数字的C端产品企业里出现。最后才是行业产品。(重构生产关系的成本太高,社会的本质特征其实会在行业产品和公司上有所体现,所以行业生产关系的重构不单是产品和技术的问题)。

实现很难但不可否认的是行业越努力就越在为这个方向注入力量

这很像历史七拐八折,但总是会回到效能更高的方向上来。(科技大发展后经济决定论一定程度上和力量决定论等价)

那这种走势到底意味着什么呢?

04 结构力量和结构的独立性

一定程度上这意味这结构本身在获得智慧和力量。高级形态就是很多人担心的它会不会有自己的价值主张,事实上真有价值主张会变成人造上帝。这个点比较虚无缥缈,不着四六,所以不多说。

更有趣的事情是这种方向似乎是和效率同一的。人类让渡出的越多效率越高。也就是说我们确实在智慧觉醒之后,不停在淘汰自己,至少是在淘汰自己的工具属性。

过去武力用于打打杀杀,现在武术只能用于表演了,所以人在力量+智能的工具属性上其实越来越被淘汰了。而上面说的新式组织显然会淘汰人的理性所对应的工具属性。

这显然会面对的问题是:人如果没用那经济靠什么推进,硅基智能维持平衡还行,它不太可能真的自我驱动,人的价值又在那里?

首先是驱动力变成了什么?回答了这问题,人也就能够重新找到位置。

更可能变成文化的力量。对金钱的渴望驱动了大航海式的扩张,但恐怕不能驱动这样的结构,因为会导致过大的内部失衡,摩擦耗散。

文化是人与环境的大综合,而综合是没有边界的,只要时空是无限的综合就是无限的,这时候人是其中的灵魂。

人在一个复杂文化系统中找到自己价值的过程其实就是一个把自己的天性和某种道性深层锚定的过程。一旦走向这条道路,那经济就蜕化成现在水和食物一样的角色。

换个角度,文化成为驱动力也就意味着高等生物的特征压过了低等的部分,大脑皮层的部分压过了爬行动物的部分。(本能可能还真的需要元宇宙)

在这个体系里人的一切都是极其贵的。

人的东西贵才能支撑真正的平等,纯粹以人为核心的经济或者权利体系是不行的。

05 小结

很多偏业务的同学说想要某种技术的时候其实是想要某种产品。而产品的大综合自有其基本脉络,不是纯粹的天马星空。这种脉络结合尺度上的把握,才能真正测算财务的预期。不过上面说的就仅止于脉络…

欢迎免费使用GPT对话,感受ChatGPT的魅力!AI爱好者 – 最具实力的中文AI交流社区平台 (aiahz.com)

ChatGPT国内版本,无需梯子,也能体验Chatgpt-AI爱好者 (aiahz.com)

长按扫描二维码进群领资源

OpenAI|ChatGPT新功能,搜索Bing获取答案插图3

欢迎来到AI爱好者

我们旨在打造一个最具实力的中文AI交流社区平台,致力于为所有AI爱好者,创业者和使用者提供优质服务. 我们的宗旨是为广大用户提供免费解决方案,您可以通过问答形式提出与AI相关的任何问题.

AI社区AI工具

安全服务战略合作伙伴:麒麟盾 SCDN

登录

找回密码

注册