近日,谷歌在年度开发者大会上大谈产品发展,期望在未来几年实现十几亿用户与科技互动的美好愿景。届时,在搜索框键入文字将成为历史,语音识别和图像识别搜索则取而代之。谷歌本次大会上发布了新品Google Lens,它是一种新的计算机视觉技术,实质上是将手机上的照相机转变成为搜索引擎。
科技发展再次来到拐点。最开始,手机的信息输入依赖于传统的键盘硬件,后来在多点触摸技术的推动下得以改进。现在,AI科技发展方兴未艾,手机信息输入的方式也再次推陈出新。人们不必在搜索框中键入描述性文字,仅用拍摄的照片也能达到信息检索的目的;抑或利用谷歌的语音助手,相比于打开Chrome浏览器,其导航能力也毫不逊色。谷歌CEO Sundar Pichai解释说:“最后我们与电脑互动的方式会越来越自然和情感化,这可能意味着键盘使用将盛况不再”。
视觉沟通形式不断发展,“相机就是新的键盘”正是当前业内人士时髦的口头禅。Snapchat考虑到较字串而言,公众更喜欢图片形式,于是在此基础上开展公司业务。Facebook和Instagram也着力开发各自的版本。Fjord设计工作室的创意技术专家Roman Kalantari说:“相机已经成为普遍的沟通形式,但下一步路在何方?”
Facebook和Snapchat在照片的基础上叠加有趣的镜像效果,增强现实覆盖,因此无法编辑文本。 与此同时,Google采用了更为实用的方法,将相机转换成像键盘一样的输入设备。对着一棵树拍照,用户便立马获知树种信息。拍摄餐厅的图片,手机会即刻显示菜单和营业时间,甚至还有预订功能。而这一技术最具示范性的代表则是将镜头聚焦路由器的SKU和密码,谷歌会识别图像,扫描信息,传递到用户的Android手机上,然后自动登录到网络中。
这一简化方式产生了重大意义。查找信息不再需要在搜索框输入文字,纷繁复杂的世界一下子尽囊括在相机的方寸之中。当然,采用这一技术的不只是谷歌公司。亚马逊的Fire Phone从2014年开始启用了基于图像的搜索,这意味着用户可以将相机对准一本书或一盒谷物,Amazon Prime便可立即发货。今年年初,Pinterest推出了Lens的Beta版,用户可拍摄现实世界中的物体,然后Pinterest平台检索出相关的对象。Pinterest的创意主管Albert Pereta表示:“相机搜索新信息跟采用打字的方式一样快速和容易”。但相较于文字,图片具有更强的表达力。Carnegie Mellon研究人机交互的Gierad Laput解释说:“摄像头可以用拍照或录视频的方式来完成任务;而键盘则是采用键入对该事物描述的方式,这就要求用户必须输入正确的描述,否则无法完成任务”。
当然,需要注意的是,图像识别只有在确保准确性的前提下才能工作。用户使用键盘的时,凡事都亲历亲为。若出现输入错误,用户可在搜索框中删除、修改和重新输入。但是使用相机,设备会自行判断查找内容,并将其理解为是用户的旨意。好消息(或坏消息)是,每拍摄一张照片来搜索查找,谷歌对用户的了解就更深一步,这意味着随着时间的推移,搜索的结果会越来越准确。