Luis CEZE：我们需要更好的计算机

显示全部楼层 · 发表于 2017-10-30 04:01:01

Luis CEZE

　　新浪科技讯 10月29日下午消息，2017未来科学大奖颁奖典礼暨未来论坛年会在京举办。会上，华盛顿大学计算机科学与工程系教授Luis CEZE发表演讲。

　　以下为Luis CEZE演讲实录：

　　感谢邀请我来到这里，非常高兴能够再回到北京，上次来北京是几年之前的时候，看到发生非常大的变化，今天非常高兴这么多朋友。两年前开设了新的实验室和微软进行设立的，如何借鉴自然界一些方法，应用到计算机系统当中来，计算机学习AI过程当中，也是需要计算机的，所以我们需要更好的计算机，我们要用这种技术帮助我们实现这个目标，自然界其实很多经验可以供我们学习的。

　　在几年前的时候，有这样一个视频，被播放几千万次了，我们给大家喷一些涂料，粉色的涂料当中含有数百万的合成DNA的因子，有多少数据能够发生，数据增长是指数性的增长，而且绿色的线是发生的数据、产生的数据，能够应用的数据是黄色的线，所以这之间有非常大的差距，而且我们能够看到这么多的数据，尤其有很多图象数据，当然很多数据不是我们都需要储存起来的，但是起码有这样的能力。绝大多数数据关于视频和图像的，现在有两百多个照相机都在牌照，这些都是在不断地去汲取数据的一个过程。

　　我们有了这些储存，计算机才能进行深度学习，所以储存也是非常重要的。如果看一下设备本身的一个基本原理的话，我们可以看一下不同的媒体帮助我们来进行数据的储存，比如有磁带、芯片、磁盘等等，最终的极限我们储存的能力，尽量使用比较少的数据空间。看一下自然界其实也是能够有这种大量的储存能力，就是DNA。生命其实就是不断地储存基因信息的一个过程。在这我们能够看到它储存了很多，关于大家的头发、指甲，所有数据在DNA进行储存，可以储存任何信息。

　　给大家强调一下合陈概念，我们讲的并不是从生物体中寻找DNA进行储存，而是我们实验室当中生产DNA，所以了解DNA储存数据的方法。其实计算机领域在过去给生物方面提供了很大帮助，其实现在生物技术反过来给计算机、AI提供一定的帮助，为什么想到DNA的故事呢？首先它的密度非常大，而且它的耐用性非常长，可以储存数十万年的时间，而且能够进行免费的非常自由的这种独立的复制。DNA的方法非常快速，我们可以用它复制数据。这是我们为什么要从自然界进行学习。

　　我们看到这张照片是facebook的数据中心，可以储存大量的数据，数据可以缩小成糖块这么大，对于DNA，也有一些储存方法，比如线上一些储存方法，可以通过flash和HDD方法进行储存，或者通过光纤和磁盘储存，还有基于DNA的档案进行储存，所以不断地在进行进展。

　　我们如何从比特到DNA再到比特过程，这是非常神奇的过程。首先看一下方向，如何DNA进行制图，比特对于每个字母都代表一个过程，从A到C到J到T，对这些比特画一出DNA序列，当然并不是很简单的，首先我们不希望有重复的数字，因为这样会让这个分子的这个信息读起来非常困难。有很多这样的数字，但是要确保这个过程当中尽量降低随机性。

　　我们可能没有办法生产非常大的分子，所以在这里能够看到技术链非常长，99%，但是有百分之一百的时候，有效率也是比较低的。作为构架师来讲，要做的是把这些长链分成小的段落，然后小序列，这是我们所做的就是150nts，要确保分成小短的区间过程当中，不要失掉信息的原本顺序。我们会把大的数字稳健地放到一些磁盘当中，我们其实也还在做这些工作，只不过现在放在分子层面去做。

　　这些分子如何归到不同文件当中去，所有分子都是属于每个稳健的。如果每20个比特，放到一个DNA链上的话，这样有很多方法，能够组成一个文件。像计算机记忆一样，知道有哪些错误，所以文件当中，DNA复制过程当中，我们也知道有哪些错误。当然这个误差可能是1%。

　　我们要做是把这种非常常见的DNA方法，支持信息的叠加，DNA可以用在储存，DNA在生命当中有很多不同的序列，而不同的序列都是非常重要的。但是这个例子当中，我们能够看出，我们在这些数据当中有两个，可能有一定的误差的，我们这样的内容是不应该出现的。

　　如何制作DNA，如何从比特到DNA序列，如何生产DNA，我们有一个DNA阵列合成概念，像一个图的表面，DNA会不断地增长，然后不同的点当中会看到会增长出不同的序列，而且每个序列都会进行复制，这也是我们使用的一些技术，在这里大家能够展现出它的合成过程。

　　这是常见的一张幻灯片，写的话是一个方面，读取也是另外一个方面，比如随机进入，有很多各种不同分子，怎么能够拿到我们想要的文件，同样也是回到它的特性来讲。在每里可以复制DNA，一种程序的方式，三种文件，红蓝绿，我想要蓝的，肯定要选择放大一些基因，然后我们把它用一些样本放大成蓝色。在生物学里面，也是用这种方法存储一些基因。我们也是进行了DNA测序。

　　我们也是同样用这样一个设备，包括用于诊断或者基因测序里面，用铝制设备，现在用了一个更加小的纳米孔的牛津大学设备，可以把一些信息转换成DNA信息，当你通过了测序，然后拿到了样本，然后我们通过计算机可以告诉我们这个分子是什么，读取的话很好的话，同样需要机器的配合，有些也要进行分类，可能要几十亿的一种筛选。

　　在数据集里面，我们可以重新再来组合这个数据，我们不可能把所有的世界上大家都能够用同样的思维方式去思考，所以我们要建立一系列的测试馆，像一个图书馆一样，可能有一些机器人的这种设备，帮你去取一些唱片什么的。这个范围特别小，每一滴都是几微米，这么小的小点就有100TB的数据。怎么能够用这么小的机器人帮我们选点呢？不可能。我们就用了液体，我们用数字的电磁液体，我们可以去用这样一个液体，去收集周边的信息，比如可以通过这样的运动，然后搜集分子的信息，可以算出分子层面的情况，展示了编码和简码，随机读取等等，还有很多的这种生物科技方面的层面。

　　我们有超过400兆的这样的数据集，这是最大的一个DNA的样本，50亿的核苷酸，现在每个周的数据量大概10兆比特，我们还是可以提升很大的速度，所有DNA的合成和测序，现在在这个生命科学里面，都是三位数左右，我们也需要等待，实验室很多的这种进展，像我们有很多的东西可以特别简化，看一下这个趋势，未来的DNA合成过程，虚线表明了芯片上面的二级晶体管，绿色就是DNA的读取速度，黄色是写入速度。看一下它的趋势，很可能未来可以在一种非常快的速度下，能够进行大量的DNA合成，像之前我们也谈到了，为了存储的需求，我们也做了很多的编码，然后不管去提升成本也好，或者加快用一些特殊目的也好。我们可以把整个世界视为一些分子，我们怎么去做呢？第一点考虑的是能源，我们就要在这里做很多的计算，如果我们要去设计一个星球级的AI系统，首先我们可能有几十亿的用户，我们有几十亿边缘设备，还有几百万的服务器，大约需要GW的这样的能量消耗。三峡电站现在是22.5GW的能力，但是从全球来讲还是有很大的差距。

　　对于存储也好还是计算也好，我们可以用这种算法，机器的应用不需要完全精确，可以让我们有一定的这种模糊性，但是仍然也不足够，还需要去考虑，在整个计算机系统里面，我们还有一种是以蛋白为基础的计算。有很多的这种ATP蛋白质存储，如果设计一个蛋白质变成一个像晶体管一样，我们可以更好地去存储更多的信息单元。有很多的可以存储能量的蛋白质，我们可以进行合成，真正实现一种生物的突破，我们也没办法去预测，是不是硅或者量子，可以代替传统这些手段。

　　生物分子是需要大量的数据，然后也非常有效，电子设备非常快，进行工艺设计控制也是非常完美，量子也是有很多不同的可以去定制化制作，同时还可以进行并行计算，需要的数据比较少，也可以很快地改变室温，比如从很高的温度降低到零度。现在有很多的这种电子控制等等，有各种未来的计算机系统的应用。

微信扫一扫 分享朋友圈

Luis CEZE：我们需要更好的计算机

微信扫一扫分享朋友圈