首页 > 其他类型 > 学霸的征途是星辰大海 > 第168章 重启SLRM研究 四

第168章 重启SLRM研究 四(1/2)

目录
好书推荐: 胡说,她才不是扫把星 美利坚农场主:开局遭遇斩杀线 被她强取豪夺后,他真香了 系统在手,带着DWG狂奔 我真不是截教妖人 从收集龙气开始建立长生世家 打造恐怖游戏?上神秘复苏 导演:从蹭无极开始 四合院:悟性逆天,狩猎众禽 从锦衣卫到仙武大帝

虽然slrm在工程上有很多缺点要解决,但不妨碍被验证是有效的。

他將目光投向了系统手稿中的另一个核心模块——动態长时记忆网络(d-ltmn)。

然而,当徐辰满怀期待地翻开这部分的草稿时,一盆冷水当头浇下。

太残缺了。

相比於slrm部分还算完整的理论框架,d-ltmn这部分简直就是“灾难现场”。

关键的图更新算法只写了一半,公式推导到最关键的地方突然断掉,取而代之的是一串乱码般的墨跡。关於注意力权重如何在图结构和序列结构之间动態分配的机制,更是只有寥寥几句语焉不详的描述。

“这……这让我怎么补?”

徐辰看著屏幕上的残卷,眉头紧锁。

徐辰尝试著推导了几步,但很快就卡住了。

这不仅仅是数学问题,更涉及到了极其复杂的认知科学和信息检索理论。

“看来,lv.0的信息学等级,確实是硬伤啊。”

徐辰嘆了口气,不得不承认现实。

虽然他靠著lv.3的数学直觉,硬生生啃下了slrm这块硬骨头,但那是因为slrm本质上是一个几何问题。

而d-ltmn,更多的是一个工程和算法问题。

没有足够的信息学底蕴,想要凭空补全这些缺失的环节,无异於盲人摸象。

“算了,贪多嚼不烂。”

徐辰果断放弃了死磕d-ltmn的念头。

“先把slrm这碗饭吃到嘴里再说。”

“只要把这篇关於slrm的论文发出去,拿到系统的经验奖励,把信息学等级提升到lv.1,到时候再回头来收拾这个d-ltmn,还不是手拿把掐?”

打定主意后,徐辰不再纠结。

……

不过,在正式整理论文之前,他决定先把“战绩”刷得更漂亮一点。

光有一个clutrr数据集的成绩,虽然惊艷,但难免会被人质疑是“过擬合”或者“运气好”。

要让审稿人闭嘴,最好的办法就是——全方位碾压。

他打开了hugging face的排行榜,挑选了几个公认最硬核的逻辑测试集:

- snli (stanford natural language inference):斯坦福自然语言推理数据集。这是nli任务的鼻祖,要求模型判断两个句子之间的逻辑关係,比如蕴含、矛盾、中立等。虽然经典,但对於大模型来说,依然存在“逻辑陷阱”。

- logiqa:这是由公务员考试题目组成的逻辑推理数据集,包含演绎推理、归纳推理等多种题型,难度极高,被称为“ai的智商测试”。

- proofwriter:这是一个要求模型不仅给出答案,还要生成完整逻辑证明过程(proof generation)的数据集。这是对模型逻辑链条最严苛的考验。

徐辰继续用他的qwen-7b模型搭配slrm模块组成的新模型,进行测试。

徐辰首先看了下原始版本的qwen-7b模型在这些数据集上的表现。

以logiqa为例,原始的qwen-7b-chat在零样本(zero-shot)下的准確率大约在35%-40%之间,在少样本(few-shot)下也很难突破50%的天花板。而像gpt-4这样的巨无霸,在这个榜单上常年霸榜,分数在75%以上。

徐辰决定先用slrm模块进行少样本学习,然后再將其与qwen-7b结合起来。

“如果我能用一个7b的小模型,加上我0.5b的slrm模块,在逻辑推理这个单项上,干翻gpt-4……”

徐辰嘴角勾起一抹玩味的笑容。

这就像是给一辆五菱宏光装上了曲率引擎,然后去纽北赛道上跟法拉利飆车。

……

第一战:snli。

原本,qwen-7b在面对一些带有否定词或双重否定的句子时,经常会晕头转向。

本章未完,点击下一页继续阅读。

目录
新书推荐: 退伍后,从空降开始问鼎巅峰 山野小神农 FATE:每天都给从者补充魔力 四合院:敢分房?直接揍 拥有系统的我有了看到别人性癖的能力,把纯洁校花和他的男朋友调成狗,结果发现她妈妈也是个隐藏的出轨婊子 大美人妈妈过年回乡,被打了一辈子光棍的老头打着驱鬼的名头骗脱胸罩交换内裤也就算了,二十分钟后那肥熟贞 为了惩罚嚣张的“雌”小鬼金乌,普通农民狗爷将“她”日 【申鹤力战不敌深海龙蜥群惨遭播种强奸】(完) 覆灭的女权国家与沦为性奴的女帝和王女(全) 女帝竟被黑人奴隶艹成母狗(全)
返回顶部