王刚 | 数据建设在教育治理和教育现代化中的应用



王刚:北京平方创想教育科技有限公司CEO、创始人

  特别高兴有机会在这么一个重要的论坛上分享一些我的想法,我知道大家特别期望很快就结束了然后吃饭了,所以我就会非常快的说一些我的观点。

  我今天题目稍微改了一下,我的题目是“数据建设在教育现代化中的思考。”

  我们一直在考虑现代化,我觉得现代化有非常多的内涵,但是从我的角度我想说在教育里面具体到学生身上我们其实会想到非常多的科技这一方面,我们一直在提科技,如果能让学生感觉到他更个性化,如果让学生觉得有很多因材施教的方式,如果能让整个教育服务的过程更加科学,比如说我们能够试图提高不管是大学还是民间的教育机构,他们的一些废物功能的效率,或者提供某个局部比如在课堂上的效率,或者在政府和教育主管部门的教育评价的体系内,提高他的科学性。所有这些事情都是我们对教育现代化的一些观察。我觉得这件事情大家可能都会指向科技,当我们提到科技的时候其实是机器,怎么让机器发挥作用,让人和机器的交互更加友好,让机器显得更加聪明,然后在不管什么东西里面,我们都希望有这样的机器的作用。

  其实我们提到机器的时候,非常基本的问题就是教育,教育在中国几千年都在讨论的事情,凭什么当我们讨论到技术、科技的时候,或者机器的时候就真的能让它发挥作用,它真的能理解吗?所以我这次扔出来三个基本问题分享我的观点:

  一是如何让机器理解教育。

  教育是在生活里真实存在的,机器技术可能是后面的,怎么让它理解。首先要换位到机器的世界里,尝试从机器的角度想它能看到什么,机器其实是什么都不懂,怎么让机器懂。所以要给机器一个工具。举个例子,我现在给了一个最基本的单元,就是机器眼里看到的各种数据,就是数据基础设施在整个教育个性化,以及让科技发挥作用里面它占有非常重要的地位。目前给大家看到的是一个组织数据的基本单元,里面能描述数据,包括把数据展开,有什么样的值、属性,包括数据跟数据之间怎么关联,这就是一个基本单元。

  为什么要讲这个,机器其实是不懂得认知和思考的,我们需要有人来教给机器认知这个世界,然后在场景下进行相应的思考。第一个重要的问题就是说一定要试图用人的经验尝试帮助机器去理解那个教育的共同体是什么。这个基本的工具比如我们找了单元,下一步就是试图描述这个共同体。实际上在任何一个阶段,我们说高等教育,实际上你想想在一个共同体里面观察到什么,有各种物质、概念、内容,你试图理解它们,另外观察在一个共同体里面还有一堆生命力的东西存在,比如有人,比如把人细分到学生的身份、老人的身份、职员的身份,我们发现他们之间还要有某些关联,比如那个人是我的老师,那个人是我的校长,这是真实会发生的。在真实社会里面有可观的概念和物质,有有生命的东西,有无生命的东西,有生命的东西也要和无生命的东西发生关联,这就是客观存在的。所以我这里用这个试图去说当确定一个场景的试图把它描述出来,比如任何一个封闭的动态的共同体。机器并不懂教育,我们要帮助机器去理解,基本的工具就是图谱,然后要人教给机器你现在观察的那个世界什么都有,在机器的眼里长什么样子,我这里举最简单的例子,左边放了人和人之间相关的东西,右边放了概念和内容相关的东西以及它们之间进行连接,这就是他们的共同体,然后进行演化。所以通常我们在行业里进行大规模的底层的数据基础设施的建设,大规模的知识图谱的构建其实就是指这个意思。

  如果再仔细观察一下,因为所有的东西都要用在人身上,如果从人的视角里会发现一方面他会观察到他和别人之间的关联,一方面他会观察到和客观世界的关联,所以在人的角度会概括成人的画像从社交图谱和认知图谱里形成的。从人的画像里有身份数据、社交数据行为数据、内容数据,它们之间互相统一在一起。

  我们一直在讨论教育,现在已经把教育等价到数据的语言上,试图表达在教育领域的一些目标。比如说教育究竟是什么,这个事情本质是教育的话题,但是我们要试图把它迁移到在数据空间里面看的是什么。我们给了一个定义,人受教育的过程实际上就是人的画像在不断地被动态更新的过程。我们要试图定义他的目标,比如说什么是好的教育,好的教育在这儿就被认为是尊重个体的起点的差异性,比如个体的差异性以及目标选择的差异性,好的效率就是最有效率的更新画像的过程。我们把真实世界里的教育整个的系统,整个的目标等价表达到一个数据的语言,剩下的事情就可以在数据空间干这件事情,所以是这么一个事情。

  在这个事情里面其实要注意几个问题:一是刚才这些事情其实是在做度量衡的问题,没有度量衡是做不了接口的。所以我们说一定要有好的一致的统一的数据标准,也就是在表达你要有度量衡。在这个里面还要注意理论和理论之间的接口,有些理论是最底层的理论,在这里面还有具像和抽象的接口,统一都在这里面考虑。

  二是如何在教育场景下面让机器懂得“思考”。

  其实机器本身是不会思考的,如果我们想想人是怎么思考的,我们对整个的认知其实有两种大的方法论,一是演绎型的方法,不断从因到果试图做各种各样的决策。二是归纳方法论,我们不试图进行它的微观解说,试图进行宏观性的关联,这就是统计学科衍生到统计学习再到深度学习,再到神经网络,就是走的这条线。其实不管哪条线背后的难度是一样的,在整个机器思考里面有演绎的方法、归纳的方法,还会动态的交织在一起。

  三是底层数据建设如何支撑上层应用建设。

  我给出了两个框架,比如我们说具体上层应用就是指得是用户用那个产品怎么样。比如说这是一个例子,这是一个面向个人的教育服务产品。我们试图让一个大学生做好一个测评,让机器试图对他测评的结果进行动态的规划,这可能就是一个非常简单的产品。这个产品你就要找到它和底层之间的关联,比如任何一个用户的发展周期,其实任何一个周期里面都是有起点、有目标,目标模糊怎么办,明确怎么办,目标明确的话规划是什么意思?如果规划做了才会影响到画像进一步更新。举个例子这就是一种怎么在底层数据上支撑上层的逻辑。下面的做法就很简单了,就是你试图去说在产品中实现什么是起点,什么是目标,所以才会出现可以跟用户不断地互动的答题,这里实际就是在进行用户的测量,然后试图有一个页面能够形成的结果,形成它的规划,这就是这样一个例子。

  再举个例子,面向机构的教育服务,你会发现都是从研究层面到模型层面到数据层面,到内部闭合式的应用层面到开放式应用层面以及到研究层面逻辑,这些逻辑会连接底层和上层。

  时间有限我就讲这些,最后特别强调一下,我其实是在研究上也做一些,在实践上也做一些,有过几年大概几百人,可能上千人团队做数据基础设施这样的经验,我们觉得在这里面希望能提到几个平衡:一是平衡研究与实践;二是平衡科学与工程;三是平衡完美与瑕疵。

  当我们说数据能够解决问题的时候,我这里给出一个总结,试图做一个总局的供应链怎么能够从需求出发,从具像到抽象,然后到进一步的数据库的建立,到整个数据分析,然后到清晰整合数据,再到分析数据,传达数据,重新验证这个模型这么一个有效的闭环。所以在这里我给出了一些思考。也给出针对这个框架在学术层面我们讨论的是一个什么概念,在整个工程层面其实对应了一些什么样的事情。拆分到整个技能层面对应了什么,到整个人才的专业层面又涉及到哪些专业。我说到这些的时候就希望能给大家一个启发,就是在这件事情里面事是怎么做到的,团是怎么组的,特别感谢有机会能跟大家分享这个事情,我叫王刚,谢谢!

  (此文根据王刚在首届教育智库与教育治理50人圆桌论坛上的演讲整理。)

  来源:教育智库与教育治理50人圆桌论坛