第152章 伊芙卡莉的困惑(续)(2/2)
好书推荐: 读弟弟笔记,姐姐直播中练成雷法
人在斗破:开局觉醒酒剑仙系统
魔卡时代,我带着神秘游戏机
太上执符
斗罗,我霍雨浩,开局拒绝天梦
医生:从心动开始
我和大明星闪婚的日子
好像就我没重生啊
人在斗罗,武魂亚托克斯
苟在游戏开服前一百年
不过换到现在这个时空节点林灰显然不能跟别人研究人员说他用的是现成的预料库。
毕竟一些现成的语料库基本都是16年左右才问世的。尽管如此,如何解释语料库来源的问题难不倒林灰。
事实上即便没有现成的语料库,想要构建一个可堪一用的能调/教出早期生成式摘要算法的语料库也不是太复杂。
最简单的方式——借助互联网可以自动构建文本语料库。
当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。
而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。
从每个网站中筛选出用户所需要的文本作为候选语料。
这个过程其实不复杂,有点类似于爬虫抓取网页的过程。
比较困难的是这种方法形成的语料库如何去噪。
但这对于林灰也不是问题。
只需要将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库。
而后再对候选语料库中每个类别下的文本进行去噪处理就可以提高语料库的质量。
在完成去噪之后就可以输出语料库。
虽然这个过程实现起来仍旧不容易。
但学术领域上除了个别被孤立的杠精喜欢钻牛角尖之外。
大多数情况下只要逻辑自洽就没人死磕。
除了好奇林灰是如何构建语料库之外。
涉及到“使用相似度模型评估文本和摘要之间的语义相关性”
伊芙·卡莉比较好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的。
额,这个问题就比较涉及到林灰搞定的文本摘要准确度模型最核心的东西了。
关于这个问题的答案就不是三言两语能说得清的了。
(本章完)