第82章 復现包(2/2)
他想了想,把毛巾搭在脖子上,推门走了出去。
“妈,下午我想出去走走。”
母亲从沙发上回头看他,脸上瞬间堆起笑容:“哎,去吧去吧,妈给你转点零花钱。”
……
与此同时,上海,浦东某写字楼的二十三层。
平台技术组的內部会议室里坐著六个人,没有人大声说话。
单越是这种声音越低的时候,事情反而越重。
长条会议桌的主位坐著的是一个四十多岁,戴著金丝眼镜的男人,是这次挑战赛的技术负责人,姓沈。
他的笔记本电脑屏幕上,正显示著一份pdf的第十八页。
页眉的位置印著两行小字。
“《分钟级行情数据异常检测与回测前置审计报告》”
“提交者:1453號。”
沈工的右手食指无意识地敲著桌面,节奏越来越快。
“这个1453號,背景查到了吗?”
坐在他左手边的一个戴著耳机的年轻工程师立刻摇头:“註册信息只有一个手机號和一个邮箱,我们只能看到註册时主动留的手机號归属地和邮箱域名,更深的身份核查不能做,用户协议卡得很死。”
“你们说,对方会是什么身份,某个高校的研究生?”沈工皱了皱眉。
“不像。”另一个年纪稍长的女工程师摇头,“研究生写报告习惯用latex,遣词造句也有学术八股的味道。但这份报告的写法非常……”
她犹豫了一下,找了个合適的形容词。
“非常工程化。”
“工程化?”
“就是那种在一线干过活的人才写得出来的语气。你看他第二页画的那张污染链路拓扑图,他根本不是从金融的角度在看这份数据,而是从测量系统的角度在看的。”
“他可能根本不关心市场,只关心从交易所到平台之间的每一层数据传输环节,哪一层最有可能掉包、漂移、错位。”
女工程师翻到报告的第八页,把屏幕转向沈工。
“真正麻烦的不是他指出了横向缺失。横向缺失只要画热力图,细心一点的人都能看见。麻烦的是,他把这些缺失带、价格尺度跳变和source_flag的分组变化放在了一张图里。”
沈工低头看屏幕。
报告第八页上有一张三层对齐图。
最上面是按 minute_id展开的缺失热力图,中间是若干个脱敏標的在相邻date_id边界处的价格尺度变化。
最下面是一条被离散化后的source_flag分组序列。
三条图之间,被江临用细灰线拉出了几组对应关係。
在图下方,他只写了一句很冷的判断。
【source_flag的真实业务含义未知,本文不对其作確定解释。但该栏位分组变化与若干横向缺失带、尺度突变边界存在统计相关,建议主办方按source_flag分层覆核底层数据源、清洗批次或供应商接口切换记录。】
会议室里安静了几秒。
年轻工程师低声说:“他没有说source_flag是供应商编號。”
女工程师点头:“对,他没有越界,只是证明了这个栏位不是无害栏位,和异常分布有关係。”
沈工的脸色沉了下去。
因为他们自己知道,source_flag背后確实不是普通质量標籤。
它对应的是两家底层行情供应商和一次內部清洗批次切换后的混合標记。
这个栏位本来不该暴露得这么完整。
更糟的是,1453號並不是靠栏位名猜中的。
他是从数据断层、尺度跳变和分组同步变化里,把这条链路反推了出来。
“也就是说,他不知道我们的底层供应商是谁,但他已经知道这里发生过数据源切换。”沈工沉吟道。
女工程师说:“对,而且他很聪明,报告里没有把话说死,只建议我们分层覆核。”
这比直接指责更难处理。
对方没有情绪,没有夸张结论,甚至没有一句越界的话。
只是把证据摆在那里,然后把下一步该查什么,清清楚楚地写给了他们。
沈工思考了將近一分钟,然后抬头去看桌对面那个一直没说话的法务。
“老周,这次公开榜单前十里,至少有几份高分提交说明明显沿用了 baseline的全局標准化流程。他这份e类章节,要是真发到外网上?”
那个被叫做老周的中年男人慢条斯理地推了推眼镜。
“如果他没有恶意公开的意图,那就是一份非常严谨的內部审计建议,我们应该感谢他。但如果他选择把这份报告掛到知乎、雪球、或者任何一个量化论坛,那就是一次严重的行业级事故。”
“问题不在於baseline本身。”女工程师说,“问题是我们前几期给客户演示的数据清洗模板,也是从这套notebook改出去的。参赛者可以不用,但客户会看。只要他把这段对照实验发出去,外界不会区分示例代码和平台数据能力。”
老周说到这里看了一眼沈工,解释说:“所以,我们这一期挑战赛的所有公开榜单成绩,从法律和工程角度都会失去公信力。前几期挑战赛因为也用了类似的baseline,会被一併质疑。已经签了商业合作的几个机构客户,会立刻发函要求我们做技术核查。”
“最坏的情况是,我们整个平台技术组,未来三年內的口碑和业务都会受到不可逆的损害。”
会议室里再次陷入死气沉沉的氛围中。
就在这时,戴耳机的年轻工程师面前的电脑屏幕上突然弹出一个新的邮件提示。
他点开看了一眼,瞳孔猛地缩了一下。
“沈工,1453號刚刚提交了补充材料,叫reproduce_leakage_v1.0.zip。“
沈工的呼吸停顿了一瞬,立即说道:“打开,投到大屏上。“
年轻工程师將那个不到一百kb的压缩包扫了一遍,然后下载解压,把readme的內容投到了会议室的大屏幕上。
六个人同时屏住了呼吸,目光在屏幕上由上至下扫过。
整整两分钟,没有人说话。
最后是那位女工程师轻轻吐出一口气:“他连我们想找藉口的余地都没留。”
沈工盯著屏幕上那张精確到小数点后十六位的预期输出表格,缓缓地往后靠在了椅背上。
良久,他才开口:“通知评审组,最终评分先暂停自动出榜,等技术覆核结果。还有,联繫1453號,我要跟他谈谈。”
……
江临从外面回来的时候,已经是傍晚六点多。
晚饭桌上,母亲难得没念叨他这几天闷在屋里的事,反倒一个劲地往他碗里夹菜。
吃完饭,他回到房间,习惯性地晃了晃滑鼠。
屏幕亮起。
赛事网页右上角的通知小铃鐺,又显示了一条新的站內信。
“关於邀请您参与平台数据审计专项的初步沟通函。”
发件人依然带著蓝色v字认证:平台技术组管理员-dataops_03。