从越在阿里巴巴集团内网上发了一张英雄帖,邀请IT高手参与天文科研课题,帮忙解决算法和开发方面的技术难题。很快这份帖子召集到五十多位志愿者,优酷、高德、阿里文学、阿里音乐……各种事业部技术人员聚集到一起。4月10到11日,在阿里巴巴总部杭州西溪园区举办了阿里“一对一”天文派对活动。
40位天文科研工作者和阿里的 IT 志愿者们聚在一起,FAST 脉冲星搜寻、黑洞吸积盘数值模拟,系外行星搜寻……他们讨论的话题天马行空,活动结束后还自发建了一个爬虫研究小组。现在,这个天文主题的社群是从越通讯录里最活跃的群,天文科研人员随时抛出需求和问题,阿里数据专家志愿者们积极解答分享方案,好像所有人心里都揣了相见恨晚四个字。
部分派对天文圈代表合影
天文学的日常观测会产生巨量数据。天文学研究员们私下开玩笑都说这门学科的数据最不值钱,想送的送不出去,想要的难拿走。就是这么一个存储、处理、传送都相当麻烦又看不到商业价值的数据密集型学科跟阿里云结成深度合作,也难怪从越把这称为公益行为,但是那些自发参与其中的IT人员们用爱发电就够了。
从越是阿里云资深云计算架构师,2016年中科院国家天文台与阿里云宣布结为战略合作伙伴之后,从越成为阿里云与天文台合作项目负责人。过去一年,阿里云跟中国科学院国家天文台共建了天文大数据联合研究中心,为重点天文科学工程提供支持和合作,帮助海量天文资源逐渐上云。全国天文学专职研究人员不到3000人,目前为止虚拟天文台注册用户超过19960人。
之前有位天文学专家在德国观测收集一批数据急需带回国,找到从越求助。以往研究人员们都是背着硬盘来往于两国之间,把几十个TB的数据人工搬回来。从越利用阿里云法兰克福节点把数据上云、传送、下载,用技术改变刀耕火种的数据传输局面。“场景对技术的反推效果是很强的。”从越说。庞大的数据下载就像瀑布倾泻,不想被击穿就要求设备和技术的完善。所以利用天文学观测数据历炼云计算、数据挖掘等能力成了技术人员们的最大收获。2018年北京-亚利桑那巡天的3.5亿天体数据也完成了云端存储。阿里云提供的Docker集群、人工智能等技术拉风了一回,云上科研大大提升了科学家的工作效率,原来一个星期的工作对大缩短到8个小时完成。
2018年阿里天池大数据竞赛也把“天文数据挖掘”确立成为新一期主题。这个比赛从2014年开始酝酿成一个大数据开发者社区。本期比赛要求参赛者对郭守敬望远镜(LAMOST)观测获得的上千维光谱数据进行分类,设计出高效高准确率的天体分类算法。参加比赛的选手一部分是天文爱好者,一部分期待利用大数据检验算法。宋宽应该属于后者。
宋宽总说研发人员要有想象力,别被常规束缚住头脑。天文学可能距离生活很远,但一个算法跑通了则可以应用在各种领域。他用光谱学举例,光学频谱可以检测到温度、运动以及化学成分。天文学用光谱学推测宇宙,那调转镜头同样的方法也可以推测一个城市的建筑分布甚至历史变迁。
让高冷的学科接地气。想当个好程序员,天文学了解一下?