ChatGPT(草稿)

BV14Y411D79y

OpenAI

在这里插入图片描述

上万GPU,
在这里插入图片描述

偏见很大。华为手机不好,苹果手机好。黑人杀人犯,白人教授。
在这里插入图片描述

模型有很多。只是 OpenAI 放出来了 ChatGPT。
4天一个大模型。
可能还有在憋大招,大模型没放出来。
在这里插入图片描述

ChatGPT 基于 GPT-3。电费搞不起啊。
在这里插入图片描述

参数不一定越多越好。
比如电灯泡是什么,你不要回答一堆细节和原理,只说灯泡会亮就行了。
在这里插入图片描述

GPT-1

BERT 填空。
GPT 预测后文,预测后文正确率越对越好。
在这里插入图片描述

在这里插入图片描述
需要换参数,微调,
在这里插入图片描述

GPT-2

根据现有的模型,提示,
在这里插入图片描述

避免死循环,
在这里插入图片描述
温度越高,越多样性。
给老婆温度1W,每天吃的不一样,今天鱼香肉丝,明天红烧肉,后天。。。
在这里插入图片描述

GPT-3

知道东西太多了。
电信诈骗,一个人可以钓上万条鱼。
开放了 API 调用
在这里插入图片描述
它知道的太多了,关联的东西太多了。
有自己的思想回答,我给他发一个固定指令,它不按照我的指令来回答问题。
也是后续 ChatGPT 做铺垫,不按照我们的事情做事。
在这里插入图片描述

zero-shot 翻译英语到法语。
one-shot 一个例子 比如:我说媳妇很懒,一天到晚啥也不干,床上躺着,
few-shot 多个例子 (一个例子不太好理解)比如:不光啥也不干,脾气还大呢,态度也不好呢,

下游任务再放入训练。
在这里插入图片描述

few-shot 好,但输入越多越高。API 收费,token字符来收费。
在这里插入图片描述

3.2M有点太多了,只有 OpenAI 玩得起。
在这里插入图片描述

以不变应万变。以后一个大模型干所有的事。
在这里插入图片描述

CODEX

GitHub 和 OpenAI ChatGPT 同一个爸爸,都是微软。
代码全部灌入训练模型。
在这里插入图片描述

ChatGPT

没有营销,
把谷歌,百度 替代,5年 10年,早晚替代。
你想了解一个问题,一个是自己搜索,一个是找专家直接问,你愿意哪一个?

ChatGPT 没有源码,只有调用人家 API,你发出去,人家回复过来。
在这里插入图片描述

ChatGPT 是没有论文的。
模型大,参数大。(回答越精确不一定好,)

有监督学习,爸爸逮到上网,说是不对的,下次不许去了。

输入后,人回答,
在这里插入图片描述

监督学习

你觉得跳楼 9楼好还是 10楼好? 它回答10楼?摔的更死?

(有监督,可以做无监督搞不了的,有一点感情,说人话,办人事)
在这里插入图片描述
在这里插入图片描述

强化学习

每个step都有一个 action。不要看每一步,要看结果。
不关心每一步怎么样,关心总奖励。
在这里插入图片描述
把图像输入到 神经网络,

1、状态:输入的一句话
2、ChatGPT模型(获得更多的奖励)
3、action:输出的一句话

在这里插入图片描述

监督学习,不要去做。
强化学习,没有告诉你有多好有多坏,它不是固定的,没有告诉你怎么去更新。
在这里插入图片描述

差异越大越好。
损失越低越好。
在这里插入图片描述

分高是我想要的。

分低继续更新 ChatGPT模型。
奖励模型也要更新,这次考60分高兴,下次需要考 80分才能高兴。
在这里插入图片描述
RL 强化学习。
SFT 有监督模型。
RL、SFT 旗鼓相当才好。RL/SFT=1 最好。
互相调整,异想天开。

强大的模型不仅仅要生成对话的,也要语言分析,文本摘要。
比如:一个人体育天赋非常强,我可能足球很高,但只考虑足球吗,也要看看百米冲刺怎么样,跳高跳远怎么样。
不是说你把 RL、SFT做得非常好的情况下,其他就啥也不是了。

得分要大,要贴合人。
尽可能以人为主,跟有监督是类似的。
再引入泛化能力,
在这里插入图片描述
猜测 OpenAI 做了这件事,
在这里插入图片描述
GPT、
GPT 加提示、
有监督模型、
PPO强化学习、
PPO-ptx 泛化能力+下游任务中锻炼锻炼。
在这里插入图片描述