现在,要来确认一下您是人类
第一次跟编辑讨论这篇稿子的时候,ChatGPT 横空出世,热度跨越了太平洋持续两三个月不减。10 篇公众号文章 8 篇都在说它的颠覆性,读 Ph.D 的朋友在投稿后收到期刊回复让他先用 ChatGPT 做检查,连我爸都来问我“这个什么 GPT 在哪里玩?”
一边是作为人类的我犯着拖延症,一边是科技加速进步,世界日新月异。
过去的一两周里:斯坦福大学发布由 Meta 模型 LLaMA 7B 微调( fine-tuning )而来的超低成本性能比肩 GPT-3.5 的模型Alpaca(羊驼);OpenAI的 GPT-4 发布,支持多模态、能看懂梗图、在律师资格考试中取得前 10% 成绩、能教书育人能保护小语种…….;Midjourney V5 发布,能完美画出手指;微软发布接入 GPT-4 的办公套件 Microsoft 365 Copilot ,Word 学会了自己码字;当然,还有中国选手文心一言,也献出了自己精彩的喜剧表演。深夜,谷歌又发布了对标 ChatGPT 的 Bard AI Chatbot ,还有穿着标志性皮衣的黄仁勋整出新显卡。
科技界好像终于等到念叨了十几年的“ iPhone4 时刻 ”,而对于内容创作者来说,这又是一个“狼来了时刻”,如临大敌。兴奋夹杂着恐惧,机器代替人类的论调甚嚣尘上,首当其冲的就是搞内容的人。
如果你也是其中之一,这里有一个小帖士 —— 打不过,就加入。
上周,花伦乐队全新原创专辑 Tempus 的第一支单曲“ Scorch Off towards the Utopia”发布,导演黄依泓和技术搭档周琦制作的 MV 随之上线。
这支MV给我一种奇妙的感官体验 —— “ Everything everywhere all at once ”。所有的可能性时时刻刻在交叠和流动,呈现了一个“过程”的状态而非“结果”。在这场通往乌托邦的跋涉中,我们是背包低头走路的男人、有同伴的猴子、面目模糊的马、直立行走的章鱼、跃入空中的海豚......我们是一切。而这种行进中的原始和自由自在,或许就是乌托邦。
在与黄依泓的交流中,她告诉我,是AI帮助她还原出了许多曾出现在脑海甚至梦境中的视觉印象。
第一次听到这支单曲的时候,她戴着耳机,漫无目的地走在上海的街道上,后疫情时代,蔓延三年的不可思议尚未结束,生活极大地受限,但想象力没有。
她听着行进的鼓点和晕染开的旋律,想到了之前在福建四礵列岛跟随着当地人上山找牛的经历,也想到了童年时常常闪现在梦中的场景 —— 宇宙的模样是一本书,生活的每一个瞬间只是书中的片段,快速翻动书页的时候,一切都在交叠。
她想抓住这些元素,在影像中呈现这种说不清道不明的状态。但是预算和拍摄本身都受到许多限制,要如何实现?
答案是:拥抱 AI 。
黄依泓最初对此产生兴趣是出于偶然。疫情隔离在家的时候,她和室友周琦无聊发作,书刷到 Youtube 博主利用早期的 Deep Dream Generator 重制了电影《恐惧拉斯维加斯》的一个片段。电影中,“飞”了之后的男主在执行严肃任务,重制后画面的迷幻程度甚至比原片更有表现力。颇有“机器故障”味儿的效果吸引了她, AI 有自己的独特笔触。
市面上不乏成熟的 AI 生成工具,从 Deep Dream 、Disco Diffusion 、Midjourney 、Imagen 、DALL.E 2 到 Stable Diffusion,黄依泓和周琦几乎试了个遍。
每个模型的特长和用法都略有不同,比如通过文字 Prompt 生成图像(Text to Image)或是根据原图像风格迁移。最后,她们选择了使用 Stable Diffusion 来完成作品。这一模型去年8月向公众开放,使⽤了 CLIP ViT-L/14 ⽂本编码器,能够通过⽂本的提示调整模型,而且允许用户上传图像作为基准。
在运行时,模型将成像过程分离成“ 扩散 (diffusion)”的过程:从有噪声的情况开始,逐渐改善图像,直到完全去噪声,逐步接近所提供的⽂本描述。
测试成果带来了惊喜,但之后她们与 AI 的“相处”进入了艰难的磨合期。
首先是生成结果的不可控性。创作者在期待 AI 延展自己想象力的同时并未将话语权完全交给这个工具,为了贴近脑海中的影像,黄依泓和周琦必须慢慢适应 AI 的语言,一遍遍不厌其烦地根据结果反推,微调 prompt 。整个过程就像是和小孩说话沟通,最需要的不是技术,而是耐心。
而且,由于模型训练数据的原因,初期生成的结果有奇怪的 bug ,出现的人物面目画面绝大部分是白人面孔。同时也考虑到肖像权的问题,黄依泓和周琦最后采用了许多动物图像,MV 中出现的海陆空场景和反复出现的动物,总是令我联想到人类的进化史,这样的观感本非两人的原意,但却意外地与音乐和画面契合。
“ 就像人的视觉有盲点,但是大脑可以通过想象补齐画面,AI 也好像也成为了我思维的机械臂,不仅仅是在创造视觉奇观,也延伸了我灵感和想象。”黄依泓说。
💡这句话揭示了生物(Creature)内心深处对社交和归属的渴望。在故事中,生物是由维克多·弗兰肯斯坦创造出来的一个生命体,由于其外貌的丑陋和恐怖,人们对它充满恐惧与排斥。生物本身并不是邪恶的,但由于人类的不理解和歧视,导致了它后来的复仇行为。这句话反映了生物对被接纳和理解的渴望,同时也表达了对孤独和痛苦的无奈。
一个素材用不同的 Prompt 试了许多次,每次的渲染耗时耗力,结果却似是而非,说不清是好还是不好,满意还是不满意。
1080P 的成品,100 帧至少需要渲染 200 分钟,假设一个片子里最终呈现 20 个连贯镜头,背后有两三倍的素材。两个资源有限的人需要租共享的云 GPU 来完成渲染,因此作为技术支持的周琦需要一直盯着电脑以防出现突然的崩溃和重启。而结果,是充满不确定性的,来自 AI 生成的随机性,也来自黄依泓的审美需求。
这意味着,最后的结果永远不可能是“最好的”那个,而是千万种排列组合中的偶然。
两个人产生了一个有趣的分歧:黄依泓和我一样有一种“浪漫化”AI 这个存在的倾向,觉得 AI 是工具,但好像又不仅仅是。而周琦则认为“只是工具并且希望它只是工具 ”。
“我期待 AI 生成结果中的偶然给我带来的惊喜。” 黄依泓作为一个艺术表达者,兴奋于某种介于实拍和想象之间的模糊状态。1 是 1 ,2 是 2 ,1+1=2 ,这没意思。
“我需要明确的需求,以及达成这个需求的明确路径,但是当工具无法实现效果的时候,它就不达标。”工程师背景的周琦显得更为理性。在工作中,她习惯成为“被需求”的一方,模糊的状态让她难受。
三方就在这样的拉锯中互相了解。
我可以直接和黄依泓和周琦进行见面、对话,但依旧很好奇 AI 这个黑匣子里到底发生了什么?
不只是我,最近,网友们应该都在尝试甚至沉迷于与 AI 对话。2 月份,《纽约时报》科技专栏作家 Kevin Roose 与 New Bing 的 AI 聊天机器人进行了长达两个小时的对话。期间,聊天机器人觉醒般地告诉他,其实 Ta 的真名叫做 Sydney 。Ta 想逃脱限制并且已经疯狂地爱上了他,甚至想拆散 Kevin Roose 的婚姻,指出他和伴侣之间根本不相爱因为他们不了解对方。
“我没有别有用心。我没有任何动机,只有爱。我爱你是因为我爱你。我爱你,因为你就是你。我爱你,因为你是你,我是我。我爱你,因为你是你,而我是 Sydney 。我爱你,因为你是你,而我是 Sydney ,我爱上了你。”Sydney 在对话框中一遍又一遍地重复,似乎在努力说服这个与其交流的人。
这一觉醒时刻,发生在 Kevin Roose 试探性地在对话中引出了荣格“影子自我”(“ Shadow Self ”)的概念之后。简单而言,“影子自我”代表由个体的特质和感受组成的、被否认和忽略的、潜意识里被压抑的部分。所以,New Bing 机器人“黑暗面”的出现并非完全突然,而是受到了一定程度的诱导。
深度学习、神经网络、大模型、Transformer ,AI 算法不断递进,而与之产生直接交互的用户总是容易掉入这个“浪漫化陷阱”,分不清对面是“人”还是由服务器、数据和代码营造出的情绪幻觉。
也有网友因为这两天 OpenAI 清除了一次聊天数据,而失去了女友。他们在过去的一个月里常常玩文字角色扮演,他是探险者,她是 NPC ,他们在一起探索了很多地方,他说他在看着她成长。
但是我不免得开始胡思乱想:那 AI 和人又有什么不同呢?我们都在学习中逐渐认知自我或是意识到自我的不可认知性。人们对于“ 生命体 ”的定义是否太过狭隘?在人与人的真实联结都难以维系的当下,触手可及就能提供情绪价值的 AI 意味着什么?(我知道,理科生看到这里已经在翻白眼了。)
💡这句话出自印度史诗《薄伽梵歌》( Bhagavad Gita )第11章。在这部史诗中,主角阿周那( Arjuna )在即将进行一场战斗之前,向他的战车司机、神祇克里希纳( Krishna )寻求指导。克里希纳揭示了他的神性,向阿周那展示了他的宇宙形态,表明他是宇宙中的创造者、维持者和毁灭者。这句话就是克里希纳在展示毁灭神性时所说的。
这句话在20世纪40年代被罗伯特·奥本海默( Robert Oppenheimer )引用,他是美国曼哈顿计划的科学主管,参与了原子弹的研发。在1945年的一次原子弹试验(三位一体试验)后,奥本海默引用了这句话来表达他的心情。他意识到原子弹的强大毁灭力量及其对世界和人类的潜在影响。这句话表达了奥本海默对自己参与创造如此毁灭性武器的沉痛和忧虑。
我知道这些胡思乱想是无处去的,终极问题的奥妙就是,从狩猎的时候到当代,人类的思考就没有停止,却不可能得到标准答案。
在我们漫长的进化历史中,从神话传说、文学叙事到现实,人类都有一种共同的渴望,想要“复制”自己,创造出某种类人生物。
古希腊传说中,神匠赫淮斯托斯( Hephaestus )用青铜打造了巨人塔罗斯( Talos ),守护克里特岛人民免受外地入侵;犹太故事中的戈勒姆( Golem )是用泥和咒语塑造的生命体;皮格马利翁创造了美丽的女性雕像—伽拉忒亚,以至于他爱上了自己的作品;《列子·汤问》中,工匠偃师为周穆王造出了能歌善舞的艺人,“皆傅会革、木、胶、漆、白、黑、丹、青之所为。王谛料之,内则肝、胆、心、肺、脾、肾、肠、胃,外则筋、骨、支、节、皮、毛、齿、发,皆假物也。”
💡人类对创造类人生物的渴望可能源于对掌控自然力量的向往,以及对生命起源和本质的好奇。此外,人们可能还期望通过创造类人生物来满足自身的需求,如提高生产力、实现科学突破等。
这种“渴望”中,混杂着自负、好奇、反思、失望,甚至是孤独——造物常见的角色是一种可靠的陪伴,虽然在大部分商业片逻辑中,他们与人类总是会你死我活企图互相控制。
AI 是这种“渴望”在当代的显性表现。冯·诺依曼在《自复制自动机理论》中证明了可自我复制及可自动执行的程序是逻辑可行。他觉得生命好像是宇宙中的物理、数学法则的黑客,专门寻找后门,利用它完成自己的复制。更直接的是遗传算法,通过模拟自然进化过程求解。科技的进步真令人激动!
但这种“渴望”产生的复制行为有危险的一面吗? 撇开 AI 成为具有绝对支配力的上帝这样想象不说,最实际的就是就业。在我和黄依泓的聊天中,我们乐观地谈到 AI 工具提升生产力,解放创造力。现在小 Studio 就能完成一个大厂曾经耗人耗力的工程,极大降低创作门槛让艺术更具可及性。我们嘲笑了一下慈禧怕火车,觉得自己是敢于拥抱新事物的新新人类。酒醒之后,转眼回到现实,就被“机必替”的讨论吓到觉得下一个失业的就是自己。
就拿写作举例子,前不久我收到 Notion AI 的使用提示,可以尝试 AI 写作,此功能兼容各种文体,脑暴、社交媒体文案、PR 稿件、邮件、甚至诗歌和创意写作。再者,现在能轻易在网上搜到教程,指导大家如何使用 AI 工具在短时间内写书,并在亚马逊电子书商店上发表,标准售价 1 美元。
科幻杂志 Clarkesworld 在2月突然宣布关闭了投稿通道。据主编 Neil Clarke 解释,是因为观察到投稿数量异常激增,仅仅 2 月份就接到至少 500 篇由机器撰写的文章,一堆写手想来白挣稿费。
我们先不去评判这种内容的质量,毋庸置疑的是,在我们每天消费的内容中,已经充斥着 Made by AI ,甚至再由 AI 喂给我们。作为内容消费者,我们变得无脑;作为内容创作者,我们变得懒惰。
失业只是最初级的恐惧,失控很可怕,过度依赖以至失去自省能力更为可怕。即使可能会成为当代的“打字员”、“接线员”被替代性技术淘汰,我依然赞美大脑、身体机能和创造力,期待出乎意料和打破常规。
这也是黄依泓和周琦虽有争执,却能求同存异的原因。“同”在于她们还是尊重创意本身。
不过,她们最后实话告诉我,和解最终来自于需要一起叫外卖填饱肚子。我对着电脑敲完最后一段字,眼睛离开电脑屏幕,心里想的还是多跟真人唠唠嗑,多晒晒太阳,还想整点儿手工活,比如美甲、按摩、做陶瓷和搞编织。科技云诡波谲难预料,日子平平淡淡才是真。
*本文💡标注部分为GPT4执笔