自从OpenAI的ChatGPT推出以来,谷歌的人工智能似乎一直处于被动、落后的状态。然而,在ChatGPT发布之前,谷歌一直走在全球人工智能行业的前沿,处于世界人工智能行业的顶端。
2014年,谷歌收购了成立于2010年致力于通用人工智能(AGI)的英国公司DeepMind。2015年,谷歌的DeepMind团队发布了AlphaGo人工智能,并战胜了围棋大师樊麾,随后战胜了李世石等世界围棋名将。基于深度强化学习,AlphaGo通过学习人类棋谱,并与人类棋手和自己对弈,最终在围棋领域达到人类无法企及的水准。在深度学习和强化学习方面取得重要突破之后,谷歌DeepMind团队将AlphaGO的方法推展到其他领域,发展出了AlphaZero(针对多种棋类游戏的人工智能)、MuZero(针对视频游戏的人工智能)、AlphaStar(针对星际争霸游戏的人工智能,强调规划、协作)AlphaDev(基于AlaphaGo,针对数据分类算法和方法,将算法优化深入到汇编语言并提供优化方法)。同时,在AlphaGo战胜李世石之后,DeepMind便开始将人工智能的深度、强化学习方案拓展到生命科学领域,聚焦于蛋白质折叠问题( the protein-folding problem)。2018年,Google DeepMind发布Alpha Fold;2020年,DeepMind发布的AlphaFold 2,其提供的精确度,已经被生命科学界广泛认可,并认为已经解决了蛋白质折叠问题。此后,DeepMind(联合 Isomorphic Labs)便从蛋白质折叠问题,拓展到生命科学更深的领域:试图预测所有生命分子的结构和相互影响的机制,目前处于AlphaFold 3阶段。
面对OpenAI等人工智能的挑战,Google被迫作出积极的应对,包括合并原DeepMind和原Google Brain团队,成立新的Google DeepMind,由原联合创始人德米斯·哈萨比斯(Demis Hassabis)担任CEO。德米斯·哈萨比斯认为,人工智能AI有潜力成为人类发明的技术中最重要和最有益处的技术(AI has the potential to be one of the most important and beneficial technologies ever invented. --Demis Hassabis)。
从近期的新闻可知,Google的人工智能,主要由DeepMind团队主导。目前,该团队正正在不断发力,力求在AI时代提供更好的服务。8月2日,Google推出Google Gemini 1.5 Pro Experiment,并在大模型竞技场比分中位居榜首,超过了ChatGPT 4o。之前,Google Gemini重要特色是支持长文本分析和视频输入等。而如今,Google Gemini 1.5 Pro Experiment似乎在许多方面都得到了优化。当然,许多用户认为,Google Gemini的代码能力比较差,优化空间比较大。
而在不久前(北京时间7月26日、美西时间7月25日),Google公布旗下的AlphaProof和AlphaGeometry团队的AI参加了国际奥林匹克数学竞赛(International Mathematical Olympiad, IMO)并获得银牌最高分数的消息。据悉,AlphaProof和AlphaGeometry团队的AI解决方案,根据IMO的记分规则获得28分数(总分42分);此IMO记分规则由IMO金牌获得者、菲尔兹奖获得者、数学家蒂莫西·高尔斯爵士、教授(Prof. Sir Timothy Gowers)和两次IMO金牌获得者、2024IMO问题选择委员会主席约瑟夫·迈尔斯(Joseph Myers)制定。AlphaProof和AlphaGeometry团队的AI解决了6个题目中的4个,并且已经解决的题目获得满分7分,是IMO银牌中最高的分数,与IMO金牌最低分仅差1分。
当然,需要注意的是,与实际的国际奥林匹克数学竞赛不同,Google的AlphaProof和AlphaGeometry团队的AI在解决问题时,首先需要将实际的IMO题目翻译为AlphaProof和AlphaGeometry系统可以理解的形式化的语言,然后AlphaProof和AlphaGeometry系统予以解答。在解决第一天的两个题目,第一个题目,仅花了几分钟便解决了,但第二个题目花了三天时间才解决。而第二天的四个题目,仅仅解决了其中两个,两个组合数学(the two combinatorics problems )题目未能回答。但是,无论如何,AlphaProof和AlphaGeometry系统能够获得IMO银牌最高分数,已经是非常卓越的成就。而据悉,许多菲尔兹奖得主(数学界最高奖项,比诺贝尔奖有更多的限制,如年龄必须是40岁以内,每4年一次,每次奖励2~4名,每名获奖者奖金为15万加元),很多都参加了IMO竞赛。
需要注意的是,谷歌(Google)人工智能侧重点不同于OpenAI等。在OpenAI 国际公司带领下,GPT模型成为一种热门的人工智能模型。GPT模型中的T(Transformer),最初是由谷歌的DeepMind团队人员提出的,尽管T(Transformer)最初设计主要是为了改善英语和德语之间的翻译水准(参考:源1);经由OpenAI团队的改造,成为了生成式预训练Transformer(GPT)。谷歌的Gemini、Gemma2等模型,也使用了GPT模型,但总体上说,谷歌的AI似乎更注重深度强化学习,其专业术语为“基于人类反馈的强化学习”(Reinforcement Learning from Human Feedback, RLHF),注重从现实生活中提取的数据中不断试错、预测;正如Google DeepMind的首席执行官德米斯·哈萨比斯所曾经强调的那样,人工智能(AI)最终的突破,还是要强调深度强化学习。当然,即使是OpenAI的ChatGPT,目前也使用了深度强化学习的方法来增强生产式人工智能的可用性,谷歌的大语言模型亦是如此,但德米斯·哈萨比斯似乎认为,未来人工智能需要更多、更大范围的深度强化学习,让人工智能更全面、更深地了解人类的物理世界、生活世界,最终能够理解这个世界,走向通用人工智能AGI或超级人工智能(ASI,Artificial Superintelligence)。
谷歌的人工智能服务产品比较多,包括闭源的和开源的产品。生产式人工智能,包括Gemini系(原Bard)和Gemma系。Gemini是谷歌的闭源人工智能产品,包括Gemini Nano、Flash、Pro、Ultra;细究的话,主要包括包括Gemini 1.5 Pro, Gemini 1.5 Pro Experimental, Gemini 1.5 Flash, Gemini Nano(用于手机)等等。Gemma是其开源产品,目前主要推出的是Gemma2模型及其配套的其他模型(见智汇AI关于Gemma2的介绍)。在语音、图像识别上,谷歌推出了Astra;Astra能够通过设备的摄像头识别物体和场景,并用自然语言进行交互,类似于谷歌的ChatGPT 4o和Claude 3.5 Sonnet,具有实时语音、图像、视频识别、对话的能力。据介绍,Astra基于Gemini Ultra多模态大模型。
同时,在视频生成人工智能上,谷歌推出了Veo,对标OpenAI的Sora。在文本生成图像上,谷歌推出了Imagen 3大模型,对标OpenAI的DALL·E3大模型。于此同时,谷歌还学习苹果公司将Apple Intelligence集成到符合条件的苹果产品的做法,将Gemini定制化为Gemini Live,并集成到谷歌开源的手机操作系统安卓(Android)最新版和谷歌持有的品牌手机Pixel最新款中,让手机可以直接使用Gemini的服务。同时,谷歌为了稳定、工具其探索引擎地位,对抗OpenAI的SearchGPT等产品,在谷歌探索引擎页面添加AI Overviews,为探索引擎提供的结果摘要、评价等内容。
Google Veo |
人工智能的发展,或许需要许多人的共同努力。然而,资本的力量和用户的需求等,将让国内外人工智能最终聚焦、合并为大约四五家大型人工智能公司的比拼、竞争。而就目前而言,谷歌开发的Gemini产品最强的模型,其用户评价目前仍然不足以与Antropic的Claude、OpenAI的ChatGPT媲美。希望谷歌在后期能够迎头赶上,让用户能够多一种体验、使用人工智能服务的选择。
源1:Transformer构建设想,“Attention is all you need”
源2:DeepMind官网:https://deepmind.google/
本文由智汇AI撰写。