在科技界,人们普遍关心的是,大型模型是否能在个人电脑领域实现与其他场景类似的深入应用。电脑操作任务繁多,大模型在取代办公软件方面尚有不足,不过它们在学习和应用方面表现不俗。同时,与大模型相关的产业焦点也在逐步转移。
大模型与PC办公替代
在电脑操作环境中,处理办公事务通常较为繁杂,要让大型模型全面取代人类进行办公,尚需经历漫长的过程。以策划文案的撰写为例,这需要整合各类数据和图表,而目前大型模型在这方面的表现尚不尽如人意。虽然大型模型在处理简单任务方面已取得一定成效,但在面对电脑办公中的复杂逻辑和多项操作的综合运用上,仍需持续进步。因此,在电脑办公领域,人们目前主要还是依靠自己的能力,而非过多依赖大型模型。
技术进步使得大型模型虽未完全取代办公功能,但正逐渐接近这一目标。目前,大模型已在基础公式运算和按模板生成内容等方面提供了一定帮助。例如,在企业员工填写周报时,大模型能提供一些数据参考。
大模型行业战略重心转变
上半年,大模型领域在探索“超级应用”,而到了下半年,智能体技术迎来了爆发,行业内的企业战略方向也发生了调整。过去,技术发展多侧重于单一领域,比如专注于文本技术的提升。但现在,大家意识到要提升为生产力,不能有明显的缺陷。比如微软这样的公司,在多技术融合上持续加大投入,从单一技术的深耕转变为打造全能的交互工具。
以前,很多企业侧重于文本生成这类单一技术的优势。而现在,它们越来越多地从人机互动的视角来考虑。以搜索技术为核心的一些企业为例,它们开始将大型模型应用于更加丰富的应用场景,并重视模型与其他技术的互补作用。
模型能力到达转折点
模型一旦具备一定水平,便能转化为生产力。起初提出的Agent理念可能效果不佳,那是因为其功能尚未完善。就好比早期的语音助手,仅能进行简单的问答,不能成为生产力工具。如今,一些简单的交互应用已经能够提升人机交互体验。例如,智能手机上的语音指令操作,让用户在驾驶等情况下也能轻松操作手机。
在端侧,多数交互体验的提升较为明显,对开发者及企业系统来说更为便利。然而,普通用户对此变化感知不强。比如,当企业内部系统升级智能体交互环节时,员工可能依旧沿用旧的操作方式,未能深刻感受到这一改动带来的交互价值提升。
大模型数据的瓶颈
大模型在预训练阶段遭遇了“撞墙”困境,这主要是因为缺乏高质量的人类语言数据。比如,语言结构的多样性和语义的丰富性不足。以翻译领域的大模型为例,若缺乏丰富的多语言转换实例和相应的语境参考数据,其翻译结果将难以保证准确性。
为了打破这一难题,企业正扩大数据搜集的范畴,涵盖众多地区和行业的文本资料。同时,它们也在改进数据处理的技术,例如谷歌等公司持续在数据清洗与挖掘领域进行创新,希望从现有数据中提炼出更多有用信息。
技术连接面临的困境
技术上讲,要让像“AutoGLM”这样的大型模型充当连接桥梁,存在一定难度。在封闭的系统中,它们难以有效协作,这成了一大问题。比如,苹果的封闭系统内的大型模型,要想与安卓系统实现对接,就颇为不易。此外,若模型不够智能,那么与其它系统的连接也将变得困难。在处理不同格式的数据转换时,如果模型不能准确处理,那么实现有效连接的目标也就难以达成。
“AutoGLM”目前正处于内测阶段,展现了其在展示领域的实力和潜力。然而,其他国际企业也在这一技术领域采取了类似的方法,例如通过读取电脑屏幕来执行任务。此外,在连接技术方面,以及技术整合和跨平台研究上,迫切需要进行深入探讨。
类Agent产品的现状与发展限制
Agent类产品成功率不高,执行复杂任务时常常会出现错误或停滞。特别是在自动化办公任务中,若涉及多个软件之间的交互,往往难以顺利完成。尽管与一个月前相比,跨应用协作任务的处理已有提升,但整体性能仍未达到用户可接受的水平。
不同APP的API标准不统一,这可能导致类似智能代理的产品接口不足,进而限制其发展。例如,一些新兴办公软件就缺乏足够的API来与智能体相连接。这种情况会妨碍智能体功能的拓展,从而影响其在多任务处理方面的广泛应用。
在此,我想请教各位读者,大家认为在PC场景下,大模型的发展最亟需解决的问题是什么?期待大家的评论和交流,同时也欢迎点赞和转发这篇文章。