在 kaix.in 这里看到了这个问卷,最初应该来自这里,感觉还挺有的说的,所以来填一下~
1. How was your first experience with AI models?
虽然现在说到 AI,默认指的是 LLM 或 VLM,但当年玩 VGG 和 ResNet 的我也曾自认为是在玩 AI。所以我先说这些早期的深度学习模型,再说 LLM/VLM。
实际上,在玩 VGG 和 ResNet 这些深度学习模型之前,咱是玩 Sobel 算子、HOG 算子之类的,所以第一印象实际上来自这些传统方法与深度学习方法之间的巨大效果差异。那也是我第一次领略到从「人类把自己的知识和经验总结成固定规律,用于新场景」到「把数据准备好、任务定义好、设计一个模型,而规律的总结交给损失函数与优化器」这种范式转变的震撼。图像分类、语义分割、目标检测、实例分割这些问题一个个被 DL 范式解决,我觉得深度学习真的厉害。但模型是不是真的有智能?我不敢确定,因为那时候模型还在工具的范畴。
老实说,之前我对自然语言相关的研究了解极少。当 2023 年 ChatGPT 展现出爆炸性效果时,我意识到这是下一个范式:AI 的能力可能是从语言这种形式中涌现,而不是从视觉形式中涌现。最大的震撼来自于:1)用语言作为介质的巧妙构思和极高的上限;2)它真能 work!
如果不是做过相关的算法研究,可能无法深刻地 get 到用语言作为介质这个思路的创新性和高上限。以目标检测为例,从当初的 R-CNN 这类目标检测器,到后来的 YOLO 这类检测器,最大的创新都在「任务定义」这个点上,一个更好的任务定义基本上就可以开创一个方向、引领一个时代。而用语言描述万物这个任务定义极其通用,比如目标检测可以通过文本输出框坐标来做;结构化输出可以通过输出 JSON 来做;写代码本身就是文本输出。文本灵活且能包含巨量信息,人类文明很大一部分就沉淀在语言中(剩下的在图像和 DNA 中)。
第二个震撼来自于:这样的 AI 模型真能 work,并且是来自「建模下一个 token」这样大道至简的方案。通过建模下一个 token,模型有了上下文理解的能力,有了看起来像是「说话」的能力。这时候不管它真的有没有智能,它看起来已经有智能了。
所以说,对于 LLM 的第一印象,主要还是出于算法工程师的本能,对这种「用语言建模一切」的思路拍大腿叫好。然后才是在 ChatGPT 里面问东问西,并且不断被「这也能答对」的瞬间惊艳。
2. Do you use AI, or are you completely opposed to using it?
我当然用 AI,并且我也推荐使用它,但我还是在几个问题上对它抱有疑虑,并且我觉得人类真的应该先想想这些问题。这一题的回答覆盖了第六题,到时候不再重复叙述。
第一是 AI 与人类福祉之间的关系。AI 能够提升人类的生产力,没问题,我们喜欢更高的生产力,但是「更高的生产力」和「更高的人类福祉」两者之间,真的能够画上等号吗?我们到底应该追求前者还是追求后者?老有所依,幼有所养,衣食住行无忧,这是我们尚在为之奋斗、暂未达成的目标。在此基础上,人还有更多需求,社交、娱乐、创作、实现自己的人生抱负,等等。那么现在要回答的是:AI 的发展,1)能不能解决这些问题;2)是否应该由人人享受;3)是否人人都能享受。作为技术人员我会认为,AI 终究能够解决这些问题;但是后两点,我没想清楚,留给哲学家、统治者、大公司来想想吧。
第二是 AI 对于文明是贡献和推动更多,还是会拖拽着文明,使之再也不得进步。我们已经知道,AI 基本上已经吃光人类累积的文本;我们还知道,Stack Overflow 这种过去大量累积知识和见解的网站,如今基本没什么新问题、新回答了。AI 能否持续创造新颖和有意义的内容,能否持续回答人类对这个世界源源不断产生的疑问,甚至在人类已经高度依赖 AI 之后,还能不能源源不断地提出好问题?现在 AI 强大的信息检索和整合输出能力会给人一个错觉,仿佛它是全知全能的,但这只是一个错觉。我们仍然需要保留好奇、质疑、逻辑推理这些通向新知的能力,并尽可能不要把它们全部交给 AI。
3. Do you have any preference among different models, for example Claude vs. ChatGPT? If so, how do you choose?
我属于那种愿意逮着一个觉得还算好用的模型就一直用的类型。最先接触的是 ChatGPT,所以 chatbot 这类产品就基本上没换过;最先接触的 coding agent 是 OpenCode,所以也就一直在用了;最先接触的用于 vibe coding 的模型是 Claude Opus,所以……诶,这个不是我不想用,只是 Copilot 的订阅现在变得太贵了,我只好退回了 GPT-5.3 Codex。
我特别不想换来换去,我甚至连 thinking effort 都不想调,我觉得现在还让我调 medium、high、xhigh,只说明模型提供商还是没把产品做好。给我一个就好了。同样,我懒得在模型之间比来比去,我只在我的财力范围内找一个用就完事了。
4. What aspects of AI models do you like, and what do you not like?
我喜欢的方面其实第一题已经答过了,就是它用一种简单的建模实现了广阔的可能性。我不好大放厥词,但我确实不是很喜欢它仍然是概率模型这一点。
当前这个问题还没有定论:人的大脑是不是概率模型呢?这个问题我胡思乱想过很多很多次。比如我开车停在路口等红灯,到底是什么约束我不踩油门撞死行人?是我作为一个普通人「此刻踩下油门的概率远远低于保持刹车」,还是我的脑中有某种机制,从根本上让我不可能去踩油门,除非出现了其他的原因,比如我就是想杀人。
据物理学家说,也许这个世界的本质就是依概率运行的,所以也许人脑也不例外,只是一个参数量很大、功耗很低、收敛极好的概率模型。如果真是这样,我还是会觉得有点不安,因为我仍然希望我绝对不会突然抽风,没事在红灯前踩下油门,我希望我的脑子是有保险装置的。
5. How do you feel about AI-generated images? Does it annoy you if someone uses them in a blog post?
现在 AI 生成图像和视频越来越好了,我总体上不是持有「AI 创作不属于原创」这类观点的人。在 AI 生图的过程中,模型作为生产工具,token 作为介质,创作者仍然需要具备想象力和描述自己创作理念的能力,所以我认为这仍然属于创作,自然也不太反感它被用在博客创作中。但是!还是希望用到的 AI 图更有创造性,也更有信息量一些。
6. The internet is flooded with AI slop now, full of generated text, images, audio, and video. How do you filter it from authentic human creation? Do you have a strategy?
对于某些 AI 内容,我已经不太能分辨了。我觉得在不远的未来,我可能完全无法分辨,我想不到什么能够长期有效的方法。
关于人类内容耗尽的思考,见上面第 2 题。
7. Are you hopeful for a better future with AI, or a dystopian one?
虽然第 2 题中的疑虑仍然悬在我的头顶,但对于 AI 技术,我还是很兴奋。AI 的应用空间巨大,AI 自身也还有很多问题等待人类去解决。我们正在见证历史,这种大规模的技术革命可不是每代人都能看到、都能参与的。
也许咱们正在刻意地回避这些隐患,只顾投身 AI 的远大前程。希望有一天,当隐患真的成为问题时,咱们能想出解决方案吧。