张学勇移民公司
微信扫一扫 分享朋友圈

已有 300 人浏览分享

开启左侧

Luis CEZE:我们需要更好的计算机

[复制链接]
300 0


Luis CEZE

  新浪科技讯 10月29日下午消息,2017未来科学大奖颁奖典礼暨未来论坛年会在京举办。会上,华盛顿大学计算机科学与工程系教授Luis CEZE发表演讲。

  以下为Luis CEZE演讲实录:

  感谢邀请我来到这里,非常高兴能够再回到北京,上次来北京是几年之前的时候,看到发生非常大的变化,今天非常高兴这么多朋友。两年前开设了新的实验室和微软进行设立的,如何借鉴自然界一些方法,应用到计算机系统当中来,计算机学习AI过程当中,也是需要计算机的,所以我们需要更好的计算机,我们要用这种技术帮助我们实现这个目标,自然界其实很多经验可以供我们学习的。

  在几年前的时候,有这样一个视频,被播放几千万次了,我们给大家喷一些涂料,粉色的涂料当中含有数百万的合成DNA的因子,有多少数据能够发生,数据增长是指数性的增长,而且绿色的线是发生的数据、产生的数据,能够应用的数据是黄色的线,所以这之间有非常大的差距,而且我们能够看到这么多的数据,尤其有很多图象数据,当然很多数据不是我们都需要储存起来的,但是起码有这样的能力。绝大多数数据关于视频和图像的,现在有两百多个照相机都在牌照,这些都是在不断地去汲取数据的一个过程。

  我们有了这些储存,计算机才能进行深度学习,所以储存也是非常重要的。如果看一下设备本身的一个基本原理的话,我们可以看一下不同的媒体帮助我们来进行数据的储存,比如有磁带、芯片、磁盘等等,最终的极限我们储存的能力,尽量使用比较少的数据空间。看一下自然界其实也是能够有这种大量的储存能力,就是DNA。生命其实就是不断地储存基因信息的一个过程。在这我们能够看到它储存了很多,关于大家的头发、指甲,所有数据在DNA进行储存,可以储存任何信息。

  给大家强调一下合陈概念,我们讲的并不是从生物体中寻找DNA进行储存,而是我们实验室当中生产DNA,所以了解DNA储存数据的方法。其实计算机领域在过去给生物方面提供了很大帮助,其实现在生物技术反过来给计算机、AI提供一定的帮助,为什么想到DNA的故事呢?首先它的密度非常大,而且它的耐用性非常长,可以储存数十万年的时间,而且能够进行免费的非常自由的这种独立的复制。DNA的方法非常快速,我们可以用它复制数据。这是我们为什么要从自然界进行学习。

  我们看到这张照片是facebook的数据中心,可以储存大量的数据,数据可以缩小成糖块这么大,对于DNA,也有一些储存方法,比如线上一些储存方法,可以通过flash和HDD方法进行储存,或者通过光纤和磁盘储存,还有基于DNA的档案进行储存,所以不断地在进行进展。

  我们如何从比特到DNA再到比特过程,这是非常神奇的过程。首先看一下方向,如何DNA进行制图,比特对于每个字母都代表一个过程,从A到C到J到T,对这些比特画一出DNA序列,当然并不是很简单的,首先我们不希望有重复的数字,因为这样会让这个分子的这个信息读起来非常困难。有很多这样的数字,但是要确保这个过程当中尽量降低随机性。

  我们可能没有办法生产非常大的分子,所以在这里能够看到技术链非常长,99%,但是有百分之一百的时候,有效率也是比较低的。作为构架师来讲,要做的是把这些长链分成小的段落,然后小序列,这是我们所做的就是150nts,要确保分成小短的区间过程当中,不要失掉信息的原本顺序。我们会把大的数字稳健地放到一些磁盘当中,我们其实也还在做这些工作,只不过现在放在分子层面去做。

  这些分子如何归到不同文件当中去,所有分子都是属于每个稳健的。如果每20个比特,放到一个DNA链上的话,这样有很多方法,能够组成一个文件。像计算机记忆一样,知道有哪些错误,所以文件当中,DNA复制过程当中,我们也知道有哪些错误。当然这个误差可能是1%。

  我们要做是把这种非常常见的DNA方法,支持信息的叠加,DNA可以用在储存,DNA在生命当中有很多不同的序列,而不同的序列都是非常重要的。但是这个例子当中,我们能够看出,我们在这些数据当中有两个,可能有一定的误差的,我们这样的内容是不应该出现的。

  如何制作DNA,如何从比特到DNA序列,如何生产DNA,我们有一个DNA阵列合成概念,像一个图的表面,DNA会不断地增长,然后不同的点当中会看到会增长出不同的序列,而且每个序列都会进行复制,这也是我们使用的一些技术,在这里大家能够展现出它的合成过程。

  这是常见的一张幻灯片,写的话是一个方面,读取也是另外一个方面,比如随机进入,有很多各种不同分子,怎么能够拿到我们想要的文件,同样也是回到它的特性来讲。在每里可以复制DNA,一种程序的方式,三种文件,红蓝绿,我想要蓝的,肯定要选择放大一些基因,然后我们把它用一些样本放大成蓝色。在生物学里面,也是用这种方法存储一些基因。我们也是进行了DNA测序。

  我们也是同样用这样一个设备,包括用于诊断或者基因测序里面,用铝制设备,现在用了一个更加小的纳米孔的牛津大学设备,可以把一些信息转换成DNA信息,当你通过了测序,然后拿到了样本,然后我们通过计算机可以告诉我们这个分子是什么,读取的话很好的话,同样需要机器的配合,有些也要进行分类,可能要几十亿的一种筛选。

  在数据集里面,我们可以重新再来组合这个数据,我们不可能把所有的世界上大家都能够用同样的思维方式去思考,所以我们要建立一系列的测试馆,像一个图书馆一样,可能有一些机器人的这种设备,帮你去取一些唱片什么的。这个范围特别小,每一滴都是几微米,这么小的小点就有100TB的数据。怎么能够用这么小的机器人帮我们选点呢?不可能。我们就用了液体,我们用数字的电磁液体,我们可以去用这样一个液体,去收集周边的信息,比如可以通过这样的运动,然后搜集分子的信息,可以算出分子层面的情况,展示了编码和简码,随机读取等等,还有很多的这种生物科技方面的层面。

  我们有超过400兆的这样的数据集,这是最大的一个DNA的样本,50亿的核苷酸,现在每个周的数据量大概10兆比特,我们还是可以提升很大的速度,所有DNA的合成和测序,现在在这个生命科学里面,都是三位数左右,我们也需要等待,实验室很多的这种进展,像我们有很多的东西可以特别简化,看一下这个趋势,未来的DNA合成过程,虚线表明了芯片上面的二级晶体管,绿色就是DNA的读取速度,黄色是写入速度。看一下它的趋势,很可能未来可以在一种非常快的速度下,能够进行大量的DNA合成,像之前我们也谈到了,为了存储的需求,我们也做了很多的编码,然后不管去提升成本也好,或者加快用一些特殊目的也好。我们可以把整个世界视为一些分子,我们怎么去做呢?第一点考虑的是能源,我们就要在这里做很多的计算,如果我们要去设计一个星球级的AI系统,首先我们可能有几十亿的用户,我们有几十亿边缘设备,还有几百万的服务器,大约需要GW的这样的能量消耗。三峡电站现在是22.5GW的能力,但是从全球来讲还是有很大的差距。

  对于存储也好还是计算也好,我们可以用这种算法,机器的应用不需要完全精确,可以让我们有一定的这种模糊性,但是仍然也不足够,还需要去考虑,在整个计算机系统里面,我们还有一种是以蛋白为基础的计算。有很多的这种ATP蛋白质存储,如果设计一个蛋白质变成一个像晶体管一样,我们可以更好地去存储更多的信息单元。有很多的可以存储能量的蛋白质,我们可以进行合成,真正实现一种生物的突破,我们也没办法去预测,是不是硅或者量子,可以代替传统这些手段。

  生物分子是需要大量的数据,然后也非常有效,电子设备非常快,进行工艺设计控制也是非常完美,量子也是有很多不同的可以去定制化制作,同时还可以进行并行计算,需要的数据比较少,也可以很快地改变室温,比如从很高的温度降低到零度。现在有很多的这种电子控制等等,有各种未来的计算机系统的应用。
                                               

举报 使用道具

回复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

9

关注

15

粉丝

42462

主题
精彩推荐
热门资讯
网友晒图
图文推荐

维权声明:本站有大量内容由网友产生,如果有内容涉及您的版权或隐私,请点击右下角举报,我们会立即回应和处理。
版权声明:本站也有大量原创,本站欢迎转发原创,但转发前请与本站取得书面合作协议。

Powered by Discuz! X3.4 Copyright © 2003-2020, WinnipegChinese.COM
GMT-5, 2024-11-25 01:43 , Processed in 0.023439 second(s), 29 queries .