能够确定的只有两点:
一、升级的过程是需要消耗算力的——服务器日志显示,给小沙投喂法规文件的那几分钟,服务器的gpu是满负荷运转的,100%的曲线。
二、升级的过程就是模型训练和进化的过程——原来郝成训练的所谓模型,实际它为了熟悉训练流程一个产物,就用自己电脑上的游戏显卡训练了一段时间,说它弱,那都算是抬举它了,就是一个玩具。
但是现在,这个模型,经过一次基础升级和一次能力增强训练,它变了,这是结果。
变得怎么样?这很难评!
从占用存储空间上来看,12个g,一张英伟达v100显卡就能部署流畅运行,这小的不能再小了。
这个空间占用的话,满打满算,7b(70亿)的模型参数?
比起几千亿参数的gpt4,文心一言等语言模型,动不动几千亿的参数,小沙大约只有它们的1%左右,甚至更少。