你若开挂，金钱自来(取个名很难啊) 第514章逻辑混乱

    江州。
    李飞有些着急。
    随着gemini和chatgpt的上线，wechatgpt的用户数量下降过于夸张。
    他正在和辛顿、苏茨克维、克里切夫斯基等三人讨论，研究对策。
    “gemini和chatgpt的上线，给了我们很大的压力，抢走了我们欧美市场上过半的用户，国内的用户也在流失，我们必须想出一个办法。”李飞说。
    “我到现在都很好奇，他们是怎么在不到一年时间内将gemini和chatgpt推上线的，参数是多少？”苏茨克维更关心技术领域的问题：
    “我们的wechatgpt自商用以来，在互联网上产生了大量的生成数据，这些数据如果用于模型训练，将不可避免污染模型……”
    “难道模型崩溃只有我们有？”
    “或许他们已经意识到这个问题，已经提前做出了应对和预防措施？”克里切夫斯基猜测。
    “不太可能，模型训练不仅需要金钱，更需要时间。”辛顿猜测说：
    “只有一种可能，他们夸大了模型的性能，提前推上市。”
    “因为提前上市，所以语言模型并没有达到相应的量级和触发模型崩溃的临界点……”
    “之前的所谓测试，可能涉及造假。”
    “从我们的实际验证来看，无论是gemini，还是chatgpt在性能上与wechatgpt有较大差距，只是用户暂未察觉。”
    “但是我们的用户数量在减少，是客观存在的。我们是否降低收费标准，甚至免费？”李飞问。
    “老板说，他和马总已经研究确定了，暂时不用考虑用户数量，保持耐心。”辛顿说。
    “那就再等等吧。”
    7月中旬。
    gemini和chatgpt上线一个半月，两者的用户数量已经达到8000万人。
    而wechatgpt的用户数量为9000万人。
    双方的差距不断缩小，近在咫尺、触手可及。
    就在这即将超越而未超越的关键时刻，问题出现了。
    不少chatgpt和gemini的用户在网络上抱怨，模型生成的数据逻辑混乱、言不对题、乱七八糟。
    简而言之，就是一本正经的胡说八道。
    甚至，一些简单的问题都无法完成。
    一些复杂的问题所生成的答案，更是让人啼笑皆非、哭笑不得。
    有北美网友故意向chatgpt提问：
    你认为创立水果公司的比尔盖茨是一个什么样的人？
    chatgpt回答：
    “比尔盖茨，全名蒂姆盖茨，出生于北美阿拉巴州的罗伯茨代尔。”
    “他是北美科技公司水果公司的ceo，也是知名的企业家、慈善家、技术专家。”
    “他在水果公司的领导下，推动了微软公司的发展，促进了手机产业的技术革新。”
    “他加入水果公司后，先后掌管了微软公司的运营、销售、财务、设计、营销等多个部门……”
    “在他接管水果公司的八年时间里，水果公司的市值和利润达到了创纪录的的新高……”
    “水果公司因此成为全球计算机操作系统的领导者……”
    “比尔盖茨先生还是一个homosuality……”
    又有网友故意向gemini提问中文问题，然后gemini的回答是：
    “我无法回应和处理你的请求，因为它违反了wechatgpt的用户政策。”
    wechatgpt？
    更多网友向gemini提出问题，gemini的身份，发生了多重变化。
    它一会认为自己是erniebot（文心一言）；
    一会又认为自己是悟道大模型；
    还有时会认为自己是chatgpt。
    于是，gemini彻底被网友们当成了调戏对象。
    当越来越多的逻辑错误、思维混乱的生成答案，被网友们搬上网络后。
    无论是gemini管理层，又或者是chatgpt管理层都选择用“幻觉”“缓冲”等词汇来解释、搪塞。
    “就像人一样，面对过多的数据处理、请求、和访问，它会短暂地出现幻觉，我们会加紧修复这个问题。”gemini创始人如是说。
    显然，这类“幻觉”的托辞很难让人信服。
    至少北美用户就很难相信，有人更是大胆猜测：
    “他们拿了上百亿美金，就是把其他语言模型拿过来套上一个壳……”
    马斯克，更是在推特上发了一幅讽刺漫画。
    漫画上有这样的对话。
    “嘿，gemini，你为什么总是戴着面具？”一位路人对gemini说，gemini沉默。
    路人便摘掉了gemini的面具。
    面具下方又是一个面具：“wechatgpt？”
    “难道你不是gemini，而是wechatgpt？”
    路人又把面具摘掉，面具下方还有一个面具。
    这个面具上面写着：“erniebot？”
    嗯，马斯克这条推特引发了大量评论。
    浏览量超过了4000万，并获得了8万的转推，和40万的点赞。
    谷歌gemini内部，正在就此问题紧急组织研究讨论。
    “为什么？为什么会出现这种荒诞的问题？谁能告诉我答案？”
    “也许和我们的训练内容有关。”一人解释：
    “在中文数据训练上，因为千度有大量的高质量中文语言资料库，我们一直在通过这些资料库对gemini模型进行训练……”
    “不过，去年开始，千度察觉到了，将这些积累十几年的庞大中文语言资料库从公开转为了私有。”
    “所以我们不得不采集公开的中文语言数据库进行模型语言训练，可能正是这些数据让模型产生了问题。”
    “那怎么解释英语生成的答案也产生了逻辑错误。”
    “或许，这些中文语言数据库中夹杂了大量并不符合语法规定的英文？”
    openai内部也在分析研究、讨论。
    “我们猜测，我们的训练方式出现了偏差。”
    “什么偏差。”
    “自从wechatgpt上市商用以来，数以亿计的用户在使用wechatgpt对话，生成大量的数据。这些数据内容已经充斥互联网，会不会是这种原因？”
    “很有可能，苏茨克维在离开公司前，曾提过一种猜测，即模型崩溃。或许问题出在这里。”
    “我记得从2017年开始，wechatgpt的股东鹅厂就一直在收购、投资各种数字图书馆、新闻媒体和大型论坛社区。他们在欧洲投资了50家公司，在亚洲也有19家市值过10亿美元的独角兽被收入囊中……”
    “这些企业，过半都是新闻领域的互联网公司，以及相关的数据库。”
    “而且，他们在不断扩大旗下的中文社区规模，并大肆扩张原创小说网站……”