谷歌I/O四大更新:科技本质不是硬件和软件,而是知识与计算

作者:亿网科技  来源:亿网科技  发布时间:2022-05-13

62.png

三年后,谷歌开发者大会I/O终于在今天恢复离线


位于谷歌山景总部旁边的海岸线露天剧场今天座无虚席。数千名公司员工、合作伙伴代表和幸运的第三方开发者终于聚集在他们最熟悉的地方

今年的I/O大会将发布和预览一系列科技含量非常高的产品和功能,涵盖谷歌的搜索、地图、安卓软件、像素硬件产品,人工智能研究和其他部门


然而,这些产品和功能本身并不是科学和技术的精髓

 

几年前,谷歌重新设计了它的使命:整合全球信息,让每个人都能访问并从中受益。在Pichai看来,这项任务有两个最基本的组成部分:知识和计算。在Pichai的领导下,谷歌过去几年在技术和产品创新方面的努力,包括环境计算、多模式学习、多研究、超大规模语言模型、增强现实等——归根结底,他们都在做两件事:

 1)加深对信息的理解并将其转化为知识

 

 2)促进计算的范式创新,让任何人都能在世界的任何角落更容易地获取和获取知识

谷歌在过去两年中扮演的重要信息中心角色就是一个直接的例子:

谷歌地图:观察真实世界,现在有了一个新的视角

在过去的两年里,许多人可能已经忘记了旅行是什么样的体验。这就是为什么很多人只能通过Google maps/earth以及浏览各种网站照片和旅游视频来“享受乐趣”

 

 Google maps immersive view将于今年推出。它支持Android和IOS。受支持的城市和地标有限。第一批包括洛杉矶、伦敦、纽约、旧金山和东京,然后将逐步添加更多的城市和著名建筑

 AI帮助您在谷歌中“寻找总数”,Pichai将要求员工将内容汇总到TLDR中(太长时间没有阅读),当他们向他发送长文档或电子邮件时,TLDR会放在文档或电子邮件的前面。这让团队思考:如果TLDR能够提供更多东西,那会有多好?

 

谷歌以前真的推出过这样的功能:

在文档中,机器学习模型将在后台运行,从文档和聊天记录中提取文本,提取关键内容,然后自动生成摘要:

以以下团队旅行计划为例:AI可以提取重要信息,如组织者、成员、注册状态和每个成员的问题,以及相关参考资料,将其放在文档的开头,以便文档的参与者可以一目了然

 

在本次I/O会议上,谷歌宣布将该TLDR功能迁移到整个企业套件谷歌工作区的更多功能,如space和谷歌聊天


(space是谷歌企业服务的团队通信产品,与slack进行基准测试)毕竟,我们可能都有同事或朋友,他们在聊天时只喜欢在一句话中发送几个词-通过这个功能,我们可以直接阻止TA的消息通知,然后每隔一段时间阅读一次摘要

 

这个TLDR功能背后其实是谷歌在自然语言理解和处理方面的“大跃进”突破


过去,类似的文本摘要功能通常需要具有长文本段落理解、信息压缩和语言生成能力的神经网络模型,这对于以前的模型来说是不可能的

 

随着近年来谷歌在大规模语言模型和多模态机器学习方面的进步,这种看似非常简单的能力,普通人很容易就能拥有,最终由机器获得。去年,谷歌推出了lamda(对话应用程序语言模型),这是主要用于对话应用程序的语言生成模型。我们在去年的I/O会议报告中详细介绍了这个模型

 

目前,AI测试厨房已经打开了三个演示:

 1)想象一下它。用户给出一个地方,让模型想象那里的风景,并生成描述:

 2)分解步骤/规划列表。你可以问它一个复杂的问题,比如“把大象放进冰箱”,然后看着它列出完成任务所需的步骤

 

值得一提的是,分解和生成步骤列表中的每一项都可以继续分解和裂变;此外,它不仅可以生成列表(提炼知识),还可以对具体步骤提供额外的详细指导(设置几个不同的具体情况并提供不同的建议)

 

 3)描述谈论它,给出给定的主题,让他说任何话

 

目前,lamda model技术仍处于早期阶段。在实际尝试和完成特定任务时,会出现一些意外或意外的异常,例如用户打算继续讨论当前主题时离题,或分解生成的步骤列表中的错误信息

 

目前,谷歌搜索和其他严重依赖知识图的产品已经在使用类似的语言生成模型。通过AI test kitchen,谷歌希望测试人员能够与lamda进行更多互动,发表评论并给出反馈


在未来,谷歌的计划是使用近年来开发的大规模语言模型集成器palm(全称:pathways language model)来完成更复杂的语言模型任务

 

 palm与之前的超大规模语言模型最大的区别在于,它有一个“思维链”系统,在输出结果时可以反映这种推理逻辑。这与过去被认为是黑匣子的神经网络模型的工作模式有很大不同。它不仅在人工智能的可解释性方面取得了巨大的进步,也展示了神经网络在仿生学(人类)工作机制中的重要进展

 

对于这家公司来说,开发最先进的机器学习技术,如大规模语言模型和多模态神经网络,尤为重要,并将其用于谷歌的核心商业产品


互联网乃至整个人类社会每天都在生成大量信息,谷歌需要保持将这些信息高效转化为知识的能力,并使这些知识及时、方便地提供给每一个用户

 

尽管谷歌仍然是当今世界的百科全书,只有保持这种能力,谷歌才能继续实现其当前商业地位和人类社会地位的可持续性

 

还有一件事:借助AR和翻译打破语言障碍

本次I/O大会还发布了许多硬件产品,它们不是我们今天关注的主要焦点。你可以通过silicon star people's home station product play的报告了解这些硬件产品


然而,值得一提的是,今天展示了一个真正的硬件,它强化了谷歌今天想要以其独特方式传达的主题


在主题演讲结束时,Pichai播放了一段视频,展示了谷歌(Google)正在开发的智能眼镜原型。这些眼镜看起来一点都不“智能”。然而,它可以实时翻译面前的人的话,并在镜头上显示翻译结果。语言是人际交往中最重要的工具。然而,如果另一个人说他根本听不懂的语言,或者当另一个人又聋又哑时,我们的交流就会变成一堵难以跨越的高墙


在高墙前,谷歌选择了它最熟悉的方式——用技术弥合鸿沟,让难以沟通成为可能


,“科技以人为本”作为一家科技公司的口号被作为一个好故事传播开来。如今,谷歌更具体地帮助我们拆除了“以人为本的技术”的概念:

技术的本质是知识和计算。归根结底,知识和计算的存在应该让我们更好地理解世界,被世界所理解。