AI在2022年创造了这些奇迹

日期:2022-12-27 19:28:42 / 人气:180


1吴恩达发布年终盘点回顾2022年AI技术。吴恩达认为,随着AI技术的快速发展,无论是目前生成文本、图像、代码的能力,还是未来视频、音乐创作的前景,都让用户兴奋莫名。
2吴恩达表示,今年,基于监督学习技术的生成式AI也掀起了新的浪潮,使AI能够生成复杂而引人注目的丰富输出,包括自然流畅的图像或文本段落。
3吴恩达认为,虽然强化学习等前一阶段的新工具未能带来与炒作量相符的结果,但生成式AI确实表现不俗,成为AI应用领域的又一新范例。
吴恩达在圣诞节当天发布了年度年终盘点。他从纯技术角度回顾了2022年AI技术创造的奇迹。在过去的一年里,AI技术取得了长足的进步,生成式AI成为新一轮投资的热门目的地。人工智能生成的文本、图像甚至代码无处不在。Vision Transformer(ViT)在2022年也经历了爆发式增长,今年发表了超过17,000篇ViT论文。研究人员突破了语言模型的界限,希望解决可信度、偏见和可更新性等老大难问题。
一封来自吴恩达的信。
亲爱的朋友们,你们好:
随着新年的临近,这是冬天肆虐的时候。但就艾而言,今天我们不是在寒冷的冬天,而是炎热的夏天。
今天,AI创造的经济价值大多集中在有监督的学习工具上,即它可以在训练后生成各种短标签(垃圾/非垃圾)甚至一组标签(如音频转录文本)。今年,基于监督学习技术的生成式AI也掀起了新的浪潮,使AI能够生成复杂而引人注目的丰富输出,包括自然流畅的图像或文本段落。
虽然前一阶段的强化学习等新工具未能带来与炒作量相符的结果,但生成式AI确实表现不俗,成为AI应用领域的又一个全新范例。
更重要的是,监督学习只是其全部潜力的一小部分。我相信监督学习有数以百万计的潜在应用尚未成为现实。目前,全球无数团队仍在努力通过监督学习寻找产品开发的最佳实践。
相信在新的一年及以后,生成式AI会继续腾飞,为大家创造更多的价值。我有幸生活在这个科技飞速发展的时代,我很高兴有机会参与其中创造未来。我更高兴与我的朋友分享这个快速变化的世界!
新年快乐!你的朋友安德鲁。
222:人工智能耀眼的一年
相信很多朋友都是一手拿着咖啡,一手拿着ChatGPT聊天,想让它给自己的亲朋好友推荐一些新年礼物。回顾这一年,AI技术无疑有了长足的进步。无论是目前生成文本、图像、代码的能力,还是未来视频、音乐创作的前景,都让用户兴奋莫名。
当然,人们也对AI创造力的下一步提出了疑问。一方面,AI的发展让更多的化学和物理模型成为可能,科学发现也因此迎来了又一次助推;另一方面,政府开始严格控制可用于AI创新的专用微处理器的供应。在这个充满矛盾和复杂的新时代,让我们从纯技术的角度来回顾2022年AI技术创造的奇迹。
合成图像无处不在。
AI生成的图片广为流传,备受争议,也成为新一轮投资的热门目的地。
背景:新一代文本到图像生成器掀起了一股实验热潮。现在普通人可以通过语言描述快速创作出引人入胜的艺术作品和奇幻场景。企业迅速将这项技术投入使用,使人工智能图像生成成为图形创作和编辑软件中的另一项重要功能。
关键驱动力:媒体生成模型(media generation model)凭借友好的用户界面、有趣的输出结果以及开放的API和模型,现已成为AI技术的“形象代言人”。
OpenAI在今年4月发布了DALL-E 2,超过150万用户参与了这款机型的beta测试。到了9月份,DALL-E 2机型全面开放。微软通过资助OpenAI获得了这一成果的独家商业所有权,并迅速将该模型整合到Azure AI作为服务平台。
今年7月,各种社交媒体平台上出现了大量的一键艺术创作方案,而这些略显粗糙的图像都是由相对简单的Craiyon支持的。
Stability AI通过开源模型stability Diffusion迅速将AI形象创作推向新的高潮——今年11月,这一模型更新到2.0版本,最终吸引了超过1亿美元的新资本。
Adobe照片存储行业的两大巨头Getty Images和Shutterstock已经将图像生成模型集成到自己的产品和服务中。
根据给定的文本提示,这类程序可能会产生完全不同的结果。PromptBase开辟了新的市场空间,可以根据描述生成有趣的文本字符串图形。
一切都很美,只是这种模型是基于从网络上抓取的图像训练出来的。和大语言模型一样,它们也继承了网络内容中的偏见和煽动性表达。
Lensa AI是一款照片编辑应用,可以根据用户的自拍生成“魔法头像”。虽然它在移动应用列表中迅速走红,但它的成功也伴随着许多争议——许多用户,尤其是女性用户,发现该应用会故意在输出图像中加入性元素。
视觉艺术家在线社区ArtStation也推出了自己的文本到图像功能。许多艺术家觉得这种可以在几秒钟内模仿艺术家个人风格的电脑程序可能会威胁到他们的职业生涯,因此他们抵制了该网站。
新闻背后:扩散模型最初的输出只能用噪音来形容,但随后它会通过一系列步骤有选择地去除低质量内容。这一模型由加州大学伯克利分校和斯坦福大学的研究人员于2015年推出,经历了数年的发展,最终结果表明,它已经能够创建与生成的对抗网络(GAN)相媲美的高水平图像。稳定性AI的稳定扩散是基于扩散模型。另一方面,作为GAN基DALL-E的创造者,OpenAI也几乎同时用扩散模型更新了自己的成果。
解读:新的一年,相信计算机辅助创作的革命还会继续酝酿。图像生成的趋势永远不会止于二维平面。谷歌和Meta今年都发布了令人印象深刻的文本到视频模型,OpenAI的文本到3D对象生成速度也提高到了一个新的水平。
程序员的好朋友。
编程助理大显身手,软件项目进度又落后了?不要害怕,新的AI应用程序可以提供帮助。
背景:事实证明,只要对代码进行微调,语言模型就可以像经济富裕的开发者一样快速编写软件例程...当然,输出质量还有待商榷。
关键驱动力:AI驱动的代码生成器正在各大企业落地,即使是小型开发者和非技术人员也能轻松使用。
今年年初,Ebay试图将低代码工具放到非工程师手中,让他们在没有人工智能或机器学习专业知识的情况下构建和部署模型。
今年2月,DeepMind推出了AlphaCode。这个转换器已经用12种编程语言的8600万个程序进行了预训练,甚至针对编码比赛中的参赛作品进行了优化。在推理阶段,它可以产生数百万种可能的解决方案,过滤掉低质量的项目。最终在10次编码比赛中击败了超过一半的选手。
今年6月,GitHub开放了副驾驶功能。这是一个自动完成系统,可以实时提供编码建议。普通用户必须支付订阅费才能使用,但学生和经过认证的开源开发者可以免费访问。
新闻背后:早在2020年,OpenAI GPT-3语言模型的用户就发现,该模型完全可以生成可以运行的代码。一年后,OpenAI推出了名为Codex的优化版本,也就是今天GitHub Copilot的原型。
一切都很美好,但是:这项技术的公开版本还不能编写复杂的程序。而它的输出往往乍一看是正确的,但运行结果却是错误的。此外,Copilot项目也存在法律风险。一项针对GitHub、OpenAI和微软的集体诉讼认为,Codex的训练过程违反了开源许可协议。最终的判决很可能对文本、图像和其他媒体的生成模式产生深远的法律影响。
解读:AI驱动的编码工具不太可能在短时间内取代人类程序员,但确实可能取代Stack Overflow这种技术问答网站,成为开发者最爱的难题助手。
人工智能的眼睛也在进化。
视觉变形金刚(ViT)也将在2022年迎来爆发式增长。
背景:研究人员在今年发表了超过17,000篇ViT论文,他们的共同主题是将自我注意与卷积结合起来。
关键驱动力:来自Google Brain的一个团队在2020年首次推出了Vision Transformer(ViT),从那以后,架构经历了持续的改进。最后的努力让ViT获得了适应新任务的能力,同时也解决了很多以前难以克服的缺点。
ViT可以从海量数据中获得良好的学习结果,因此Meta和索邦大学的研究人员希望模型“仅”通过数百万样本数据集就能达到理想的性能。他们试图通过使用来自transformer模型的特定转换来提高性能,例如数据增强和模型正则化。
韩国In-Ho大学的研究人员修改了两个关键组件,使ViT更像一个卷积神经网络。首先,他们将图像丢失给具有更多重叠的更小的瓦片,然后修改自我关注机制,以关注每个瓦片的相邻瓦片,而不是当前瓦片本身,以便模型可以知道是给相邻瓦片均匀的权重还是选择性的权重。这些修改大大提高了模型的准确性。
印度孟买理工学院的研究人员给ViT配备了卷积层。由于权重共享,卷积可以在本地处理像素,同时减少内存占用。在精度和速度上,它们的卷积ViT也优于常规版本的ViT以及Performer、NYStrTransformer、Linear Transformer等变压器的运行时优化方案。这种方法也被很多其他团队采用。
新闻背后:虽然很多ViT的研究都以最终取代卷积神经网络(CNN)为目标,但目前的主流趋势显然是将两者结合起来。ViT的优点是可以从大和小两个尺度来考虑一幅图像中所有像素之间的关系。但是它的缺点是模型需要额外的训练才能集成到CNN架构中进行随机初始化后的学习。CNN的局部上下文窗口(即只有局部像素是重要的)和权重共享(使其能够以相同的方式处理不同的图像位置)可以帮助变压器从更少的数据中学习更多的模式。
现状解读:在过去的一年里,视觉变压器的应用范围大大扩展。ViT已经能够生成难以区分真假的连续视频帧,从2D图像序列到3D场景,并检测点云中的对象。如果没有这些成就,恐怕最近大火的扩散模式也无法在文转图生成上取得如此惊人的进步。
语言模型继续扩展。
研究人员突破了语言模型的界限,希望解决可信度、偏见和可更新性等老大难问题。
背景:尽管许多AI实验室希望通过改进数据集和训练方法(包括训练单个转换器翻译数千种语言的方法)来提高大型语言模型的复杂性,但一些研究人员试图扩展模型架构,希望实现网络搜索、外部文档查询和更强的新信息适应效果。
关键驱动力:虽然今天的语言模型表现出很强的文本生成能力,但在辨别事实、控制“脑洞”和消除社会偏见方面仍然较弱。研究人员正试图使语言模型的输出更可靠,更少挑衅。
2021年底,DeepMind提出了RETRO,一种可以从MassivText数据集中检索段落并整合到输出中的模型。
Al21实验室在春季推出的Jurassic-X推出了一套模块,包括一个计算器和一个维基百科查询系统,可以对语言模型就数学问题、历史事实等做出的答案进行事实验证。
斯坦福大学和洛桑联邦理工学院的研究人员创建了SERAC,这是一个可以用新信息更新语言模型的系统,无需重新训练。它有一个独立的系统,专门用于存储新数据和学习相关的查询结果,从而调整最终的输出。
Meta构建的Atlas是一种可以从文档数据库中检索信息来回答问题的语言模型。这个方案是今年8月份发布的,只有110亿参数的Atlas在回答问题上甚至跑赢了拥有5400亿参数的PaLM。
今年晚些时候,OpenAI对ChatGPT进行了调整,以尽量减少不真实、有偏见或有害的输出。由专人对模型的训练数据质量进行排序,然后用强化学习算法奖励模型优先生成与高排序结果相似的输出。
上述发展趋势也使得人们对语言模型提出了更加微妙和动态的基准要求。为了响应号召,超过130家机构在BIG-bench项目中合作,试图解决通过表情符号推断电影自我鼓励、参与模拟实验、检测逻辑谬误等一系列任务。
新闻背后:语言模型在进步的同时,也制造了不少麻烦。Meta公开展示的Galactica是一套可以生成科技话题文本的语言模型。然而,在11月,展览后仅三天,该模型就被关闭,因为它倾向于产生虚假信息和引用不存在的来源。今年8月,同样来自Meta的聊天机器人BlenderBot 3迅速获得了传播种族主义刻板印象和阴谋论的名声。
现状解读:今年以来,文本生成领域出现了可靠的工具。我相信,成功的技术将在不久的将来以一鸣惊人的新模式在激烈的竞争市场中找到新的出路。
有没有全能模式?
少数深度学习模型已经证明了它们解决数百项任务的能力。
背景:在过去的一年里,多任务模型的阵容也急剧扩大。
关键驱动力:研究人员突破了神经网络能够掌握的技能数量上限。他们的灵感来自于大语言模型的新兴技能——例如,他们可以在不进行结构调整的情况下编写诗歌和计算机程序,由文本和图像训练的模型也获得了在不同类型的数据之间找到对应关系的能力。
今年春天,谷歌的PaLM在数百项涉及语言理解和生成的任务中展示了小样本学习的最新成果。在某些情况下,它的性能甚至优于调优的目标模型或人类的平均水平。
不久之后,DeepMind发布了加托。它可以处理600多种不同的任务,包括玩雅达利游戏,用机械手堆叠木材,生成图像描述等。,并且不需要专门用于这些任务的单独模型。同时,系统由各种数据集进行监督和训练,包括文本和图像识别、基于强化学习的智能体生成等等。
随着2022年接近尾声,谷歌研究人员给机器人带来了类似的通用能力。RT-1也是变形金刚模型,可以引导机器人执行700多项任务。该系统可以将动作和图像标记化,并在近一年半的时间内,用许多机器人收集的13万组数据完成了训练。与现有技术相比,它在新任务、新环境、新对象中表现出很强的零样本适应性。
新闻背后:欧盟拟议AI法案最新草案很可能在2023年通过成为法律。该法案将要求通用人工智能系统的用户向当局注册,他们的系统将被正式评估潜在的滥用,并将定期接受审计。草案将通用人工智能系统定义为“执行通用功能,如图像/语音识别、音频/视频生成、模式检测、问答、翻译等”的人工智能系统并且“具有多种预期的内部/外部用途”。一些观察家批评该定义过于宽泛,并认为以下真正普遍的新兴模型可能会促使监管机构进一步完善该定义。
对现状的解读:可以扩展到数百种不同任务的AI算法还处于早期发展阶段。但2022年的实际进展再次表明,深度学习有潜力帮助我们实现这一目标。

作者:合景娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 合景娱乐 版权所有