每天懂点黑科技
每天懂点黑科技
黑科技老K
主播:老K清华大学电子系学士、计算机系硕士硅谷科技公司研发主管上市公司CTO人工智能、区块链、云计算、大数据、物联网、虚拟现实、量子计算、脑电控制......当我们的视听中逐步充满这些词汇的时候,智能时代,已悄然来临。回望不久前的过去,社交、搜索、电商、网游、视频、团购、共享、直播......这飞速发展的年代里,不同的人抓住了不同的机遇。对于一直在路上的我们,需要关心的是:如何在新一波浪潮中,找到属于自己的机会?本专辑将以通俗易懂的方式,为听众朋友们介绍智能时代的新兴科技。期待和你一起进步!
我们可以向阿尔法狗借鉴什么?
如何训练大脑,形成行动与回报的闭环,建立出类拔萃的决策系统?
Jul 17, 2022
9 min
智能汽车的互联时代,即将来临!
现在的汽车,与几年前相比,已经发生了很大的变化。比如:在路上,我们可以看到绿色的新能源车牌拿出手机,我们可以方便地使用网约车、代驾、共享汽车等服务车内配置,增加了触控大屏、语音控制、自动泊车等新功能驱动汽车行业发展的动力,包括以下方面:1. 动力系统 - 电动、混合动力正在逐步兴起2. 新材料 - 包括高强度、轻重量的合金车身,纳米材料的挡风玻璃等3. 用户的出行偏好 - 部分用户已经从享受驾驶乐趣,逐步发展为想要把手脚和大脑从驾驶中释放出来,提高车内时间的利用效率4. 人工智能技术的逐步成熟 - 语音识别、自动泊车等辅助系统已应用到上市车型中,而谷歌waymo等自动驾驶正在迅速发展。5. 则是车的互联 - 随着传感器、处理器、5G、云计算、大数据等相关技术的发展,与手机的发展历程类似,汽车也正在互联的方向发展。按此趋势发展,汽车行业的下一个阶段,将是智能汽车的互联时代。那么,汽车产业链中的各类玩家,在这个新时代中,将会怎么玩呢?下面分别介绍:1. 网络运营商:也就是移动、电信和联通,他们干啥呢?在车里面预装Sim卡。听起来似乎还有点科幻,实际上已经不远了。运营商的明星产品:带宽,在5G时代会有更多的应用场景。2018年,中国联通已经开始了eSIM的试点和布局,车联网就是eSIM的应用场景之一。2. 智能手机厂商:通过智能手机与车载系统的连接,提供车载电话、音乐、导航等应用,苹果的Carplay就是做这件事的,目前已经有超过400种车型支持Carplay,以后挡风玻璃的AR显示,也有可能成为智能手机的扩展屏幕。3. 云服务商:对于Google Cloud、亚马逊AWS、微软Azure、阿里云等云服务商而言,车的云端接入以及相关的大数据和人工智能服务,将是下一个业务增长点。4. 导航服务商:出行导航是用车的强需求,车载GPS原来是车企的自留地,但智能手机出现以来,车载导航已经逐渐被高德地图等手机导航软件取代。而下一个阶段,无人驾驶对高精度地图的需求,才可能成为新的机会。5. 内容服务商:包括音乐、电台等等,司机的时间和注意力,对于内容服务商而言,一直是重要资源,从传统的调频电台,到现在流行的手机FM,与车的连接都是重要的流量入口。6. 保险公司:保险公司和车联网有啥关系呢?还真有,关系还挺大。大家知道,现在的车险报价和理赔历史数据是相关的,目前还没有和驾驶行为结合起来。其实车险报价和驾驶行为是可以结合的,比如我的驾驶行为习惯良好,遵守交通法规,很少猛踩油门刹车猛打方向盘,出险的概率自然是低的。UBI车险(Usage Based Insurance)就是基于驾驶行为的保险,用户提供车载传感器采集的驾驶行为数据,获得更为精准的车险报价,这件事在平安保险也已经开始布局了。下面总结一下今天的内容,今天我们介绍了驱动汽车行业发展的新能源、新材料、新技术等多重动力,阐述了汽车产业链中的各类玩家在智能汽车互联时代的新玩法。相信未来的汽车,会为我们的出行,提供更好的服务。
Feb 19, 2019
5 min
无人驾驶汽车离我们究竟有多远?
无人驾驶汽车(Self-driving Car),是目前非常热门的领域之一,谷歌、通用、福特、大众、奔驰、宝马、沃尔沃、百度、Uber、特斯拉、苹果等等公司都在进行投资。今天的这期节目,我向大家介绍一下无人驾驶汽车的基本原理。首先,我们停下来思考一下人驾驶汽车的场景。今天你开车去参加朋友聚会,如果是熟悉的目的地,基本上是不需要导航的,因为大脑里有地图,对于不熟悉的地点,那就用手机的地图软件导航过去;行驶在路上的时候,你眼观六路耳听八方,观察路况、交通指示牌、周边车辆、当前位置、路径导航等等信息;对于路上的车辆、障碍物等物体,根据他们当前位置、速度、所发信号等信息作出预判,以决定当前是加速、减速还是左右并道,然后控制手中的方向盘和脚下的油门刹车。当然,作为老司机,以上的这个过程,其实已经习以为常,无需思考。我们的大脑、神经网络和肌肉,经过长时间的训练,已经将驾驶技能变成了自然能力的延伸。然而,以上场景中有六个要素,在无人驾驶系统中进行了借鉴和拓展,下面一一进行介绍:地图对于有人和无人驾驶,地图都是不可缺少的。不管是老司机大脑中的地图还是导航App中的地图,我们需要从地图中获取当前位置、目的地、路径、路况等信息。而无人驾驶对地图精度的要求会高出很多,普通的地图,精确到米就可以了,因为驾驶员可以在近距离进行微调。而无人驾驶的地图精度,必须达到厘米,否则无人驾驶汽车一定会撞上。另外,无人驾驶的地图,需要更为丰富的驾驶辅助信息,比如路标、交通灯、速度限制等等,这些信息都可以帮助系统做出行驶决策,计算机比人擅长的能力之一,就是记住海量的驾驶辅助信息,并在需要的时候查询使用。感知和司机一样,无人驾驶系统需要实时地获取周边信息,以便做出判断决策。不同的是,司机采用的是眼睛耳朵等感官,无人驾驶系统采用的是摄像头、雷达、激光等传感器由摄像头采集的图像视频等数据,运用计算机视觉的方法,采用卷积神经网络(CNN),可以对车、行人、道路、障碍物、路牌等物体,进行识别、分类、追踪由雷达、激光等传感器采集的点阵数据,则可以用来获取距离、速度等信息这一系列传感器信息,还可以和地图信息进行融合,这样,感知系统就可以做到“心中有图眼观六路耳听八方”。定位说起定位,我们首先会想到GPS,GPS对于手机用户导航是足够的。但是GPS的定位误差,在信号充足的开阔空间里,是1~3米,这对于无人驾驶来说是远远不够的。无人驾驶,需要的是精确到厘米的定位,否则误差的几十公分,就会发生安全事故。无人驾驶定位采用的方法,通常是多种定位方式的结合,比如:- 实时动态RTK(Real-Time Kinematic),是作为GPS的拓展- 惯性测量,依据牛顿定律,通过速度和加速度计算位移- 激光雷达和视觉定位,是运用周边信息,对定位的进一步校准预测和司机的预判一样,无人驾驶系统需要对周边情况作出预测,以作出控制决策。比如前方有车并道,根据距离和速度情况,决定需不需要踩刹车等等。无人驾驶系统,把周边物体的位置、速度、加速度等信息,抽象成为不同的时间序列。有了之前时间点的信息,预测下一个时间点的信息,这是递归神经网络(RNN)擅长解决的问题。前面感知的数据,除了用于定位,也会用于预测。规划规划包括了路由、轨迹和速度规划等从起点到终点的路由规划,这个和手机导航差不多行驶过程中的轨迹规划,包括让车保持在车道中轴线的轨迹,前方有障碍时变道的轨迹等等另外,还有结合车道限速、周边车辆信息的速度规划这里面运用了很多计算机图论相关的知识控制控制主要是无人驾驶系统向车的动力、制动、转向系统发送指令的过程。控制指令发出后,通过感知采集实时反馈信息,这一点和人为驾驶也是相似的。总结一下今天的内容,今天我向大家介绍了无人驾驶的基本原理,从地图、感知、定位、预测、规划到控制,无人驾驶系统结合了测绘、传感、通讯、计算机视觉、神经网络、图论、信号与控制等多领域的科学技术,成为了众多科技公司的关注焦点。随着城市路政规划、交通法规、商业保险等等配套设施的发展完善,相信在未来的某一天,无人驾驶会为我们的出行,带来更大的便利!
Jan 20, 2019
7 min
2019,别让AI主宰了你的生活!
各位听众朋友,新年好!2019年的第一期节目,我选了这样一个标题:别让AI主宰了你的生活!你也许会说,AI主宰人类,这都是些科幻片,“老K主播,你在逗我玩吧?!”然而,AI逐步渗入人类生活这件事,不是耸人听闻,而是真真切切的正在进行时。这里所说的AI,并不一定都像“终结者”一样钢筋铁骨刀枪不入。我们日常所用的各种系统,它们后台的算法,其本质上都是AI。今天,你早上起来看的新闻,上班路上坐的网约车,朋友圈的第三条广告,中午点的外卖,下午淘的宝贝,休闲时玩的游戏,睡觉前刷的短视频,背后全都有AI的功劳。而与此同时,这些AI正在服务成千上万个你!对于每个人而言,时间和精力,都是我们宝贵的财富。时间是有限的,每人每天只有24小时;精力也是有限的,困了累了需要休息。但是,我们所发明的AI,从某种意义上来说,也正在不断吞噬我们自己的时间和精力。来看一下智能时代的两大趋势:趋势一:伴随着科技的进步,人正在变得越来越懒…...在媒体匮乏的年代,我们需要主动地获取信息,收电台,听评书,看露天电影,追小说连载再后来有了电视,信息开始变得丰富起来,坐在家里选选台,不出门就可以知天下事再后来有了互联网,门户网站的编辑们,帮助我们进行了信息分类,方便了检索再后来有了搜索引擎,输几个关键词,想要找的内容,很快就搜到了再后来,就有了推荐引擎,运用大数据和AI,向你推荐你喜欢的信息,都不用输关键词,手一刷,内容就来了,而且你用的越多,后台的AI就越懂你,给你推荐的内容更准确,让你更加爱不释手。国外的Facebook,早已推出了News Feed一类的产品,这个英文feed很形象,你喜欢什么,AI都可以喂给你。国内的新闻、短视频,也还在如火如荼日新月异地发展,不断地把用户的视线,留在方寸之间的手机屏幕上。趋势二:“眼球经济”的动力驱使下,平台服务商们的能力,正在变得越来越强。平台服务商研发的AI,正在帮助平台持续地吸引用户的注意力,给用户画像,向用户推荐Ta感兴趣的内容、商品和服务,向广告主们提供精准的投放服务;而从中获取的回报,又可以投入研发更为强大的系统。从社交、搜索、电商到团购、游戏、约车、新闻、短视频…在我们身边,已经有N个超级系统,具备同时服务几十亿人的能力。从技术发展前景来看,智能系统正以前所未有的速度飞速发展;从商业竞争格局来看,未来所有规模化的公司,都必须以大数据、AI的智能系统作为支撑;这一过程将不可逆转。AI与人共存的超级智能时代,不是即将来临,而是早已到了!在这样的超级智能时代中,AI对你的生活可能产生的负面影响,不是像“终结者”一样把你干掉,而是使你对内容上瘾,每天盯着手机看十几个小时,耗费掉你的时间和精力。今天的这期节目,我们关注了智能时代的两大趋势:人越来越懒,机器越来越强。明白了这些事,你会发现,其实问题的本质,还是如何管理好自己,了解科技,掌握科技,让科技更好地为我们服务。新的一年已经开始,祝大家2019更上一层楼!
Jan 3, 2019
5 min
关于AI,霍金的担忧究竟是什么?
霍金的最后著作《重大问题简答》里,阐述了他对于科学和社会所面临的最大问题的思考,关于人工智能,霍金表达了他的担忧。“The concern is that AI would take off on its own and redesign itself at an ever-increasing rate. Humans, who are limited by slow biological evolution, couldn’t compete and would be superseded.”—《Brief Answers to the Big Questions》他的担忧,并不是AI取代人的工作。从历史发展进程来看,从工业革命以来,蒸汽、电、计算机的发明,每一次都取代了一部分的工作,但同时创造了更多的工作,在这个维度,AI和人类发明的很多工具一样,将成为人能力的延伸和扩展,可以使得人从重复低效的劳动中解放出来,做更为重要的事情。霍金所担心的,是人工智能具备自我学习和迭代能力。一旦AI可以发展出自己的意愿,我们无法保证“AI的意愿”和人类保持一致。近年的《西部世界》等科幻片,已经在描绘这样的场景,然而,科学家霍金的担忧,不仅仅是科幻,更不会是空穴来风。这期节目,我给大家介绍一下,在这个领域最前沿的研究:通用人工智能(Artificial General Intelligence)首先介绍一下通用人工智能的概念:从本专辑之前的节目中,大家可以知道,人工智能的基本方法是通过标注数据对模型进行训练,图像识别要用海量图片作为数据输入,而语音识别要用海量语音作为数据输入,训练出来的人工智能,都是某一领域的专家。比如AlphaGo下棋很厉害,但是无法像Siri一样与人对话。不能跨领域的AI,是所谓的“弱”人工智能。如何训练出既能读书写字又会唱歌跳舞,琴棋书画样样皆通的“强”人工智能,是一项很大的挑战。通用性,是“弱”人工智能与“强”人工智能的分水岭。为了解决通用的问题,采用的方法也有所不同。比如,马斯克投资的OpenAI,采用了一种叫做Universe的结构,它包含了三个组成部分:环境environment、接口interface和智能代理agent。我在文稿中给出了示意图,听音频的朋友,可以想象眼前有三个方框,从左到右依次是环境、接口、智能代理。- 环境是真实世界问题的抽象,比如,浏览网页、PS照片、编辑文稿等等- 接口包含了输入与输出两类,Universe采用了信息时代我们最为熟悉的接口:键盘、鼠标和屏幕。- 智能代理,则是人工智能的算法模型,这里主要是深度强化学习这一类的自我产生训练数据的方法。值得注意的是,这个结构已经具备了通用性。今天我们使用个人电脑、手机、平板来处理各种问题,显示屏用于提供系统状态和反馈,鼠标键盘触屏用于提供控制,这是我们非常熟悉的方式,如果把人换成智能代理,就变成了Universe的结构。有了方法论以后,Universe在左侧的环境中,导入了真实世界中的很多问题。其中电竞游戏,因其玩法策略的复杂性,成为了主要研究内容之一。从当年乔布斯曾参与设计研发的雅达利游戏(Atari Games)到近期风靡全球的星际争霸、DOTA等大型网络游戏,都与Universe环境进行了集成。在右侧的智能代理,则是各种类型的算法和模型。比如,著名的演员与批评家方法(Actor-Critics),演员选择表演行为,批评家评判行为提供反馈,演员根据反馈对行为进行改进,以此迭代。其中,深度强化学习,结合了深度学习在数据特征提取方面的优势,和强化学习在序列决策任务方面的优势,是目前通用人工智能领域最有效的方法。在上一期节目中,我介绍了“左右互搏”的阿尔法狗,通过自我迭代升级,成为了棋类领域的通用人工智能。而DeepMind在今年宣布的Impala,采用一个通用算法,通过自我迭代升级,已经可以完成30项不同的认知任务,采用更少的数据,却在性能上超越了之前的智能代理。媒体报导则更加惊人:说原来预计在2035年左右才会出现的第一代通用人工智能,已经整整提前了18年!当然,我们也不必杞人忧天,所谓“滚滚长江东逝水,浪花淘尽英雄…古今多少事,都付笑谈中”展望明天,同时也要活在当下。今天的这期节目,我们回顾了霍金先生的担忧:人工智能的自我迭代能力,并介绍了通用人工智能的前沿进展。其实,人的核心能力,也是一样,从2018走向2019,我们具备这种能力,才能不断地迭代进步。祝大家在2019年迭代升级!
Dec 24, 2018
6 min
“左右互搏”的阿尔法狗,是如何成为跨界棋王的?
金庸大侠的武侠小说里面,老顽童周伯通被黄药师关在桃花岛上,一个人找不到对手,只有左右互搏, 从而悟出了新的武功。而现实生活中,闻名遐迩的AlphaZero,采用的也是这样的方法。今天的这期节目,向大家介绍一下阿尔法狗“左右互搏”的科技原理。DeepMind公司的这一系列研究,有三个主要的里程碑:第一阶段,AlphaGo通过学习人类棋手的棋谱,以4:1战胜人类超一流棋手李世石在这个阶段,AlphaGo的训练方法,叫做监督式学习(Supervised Learning),简单理解,就是从人类职业围棋高手对弈的棋谱中进行学习,集百家之长,来对付一个对手。在特定局面之下,走哪一步的胜率更高,都是精确的数据。然而,现有的棋谱毕竟是有限的,把天下九段高手的武功全部学完,水平到了十段,就变成独孤求败了,很难再有提升。(值得一提的是,在人工智能的很多应用领域,一旦超越了人类,再想提升就会变得很难,其主要原因,都是缺乏用于学习的标注数据。)因此,在第二阶段,AlphaGo采用了新的训练方法,叫做强化学习(Reinforced Learning),自己与自己下棋,左右互搏,利用这一过程中产生的数据进行学习。值得注意的是,用于训练的数据中,不包含任何人类高手的棋谱,零经验,正如它的名字AlphaGoZero。那么问题来了,没有人类高手的棋谱作为训练数据,如何判断左右互搏中下出的棋,是好棋还是坏棋呢?一盘棋最终的胜负当然是判断标准,但,左手赢了并不代表左手下的棋都是好棋,只能表明在这一盘总共的n步棋当中,有若干步棋,左手比右手下得好。那么,我们能不能对这些相对好的下法有所保留,再通过左右互搏,迭代出更好的下法呢?答案是能。强化学习的核心思路,就是建立一个评价反馈系统,让智能体以“试错”的方式进行学习,通过环境提供反馈,对好的行为予以鼓励,对坏的行为予以惩罚,久而久之,好的行为就会被保留下来。凭借TPU的超级计算能力,采用左右互搏的方法,人类棋手不曾下过的棋也放在了训练数据中,因此AlphaGoZero以100:0战胜了前面的AlphaGo。第三阶段,DeepMind团队把左右互搏的方法拓展到其他棋类,训练出新的AI。AlphaZero横跨围棋、国际象棋、将棋,通过8小时训练战胜AlphaGo,4小时训练战胜了可碾压当年“深蓝”的顶级国际象棋程序Stockfish,2小时训练战胜顶级将棋程序Elmo,成为了跨界棋王。AlphaZero的训练,只需要知道这几类棋的规则,通过左右互搏产生数据,在棋类领域具备了一定的通用性,向通用人工智能迈出了一步。总结一下今天的内容:今天我们以AlphaGo的发展历程为主线,介绍了“监督式学习”与“强化学习”的概念。监督式学习,是在师傅的监督下,学习什么是好的什么是坏的。强化学习,是采用“试错”的方式学习,通过环境进行评估反馈,做的好时有奖励,做的不好时被批评。当年,深蓝战胜国际象棋世界冠军卡斯帕罗夫;去年,AlphaGo赢了围棋世界冠军李世石、柯洁;今年,OpenAI 5又在DOTA2这样的多人实时战略游戏中,战胜了职业游戏高手。在棋牌、电竞等领域,人工智能战胜人类,一次次引起了媒体的广泛关注。而这一系列算法模型等研究成果,又可以在其他应用领域中,创造出更大的价值。
Dec 20, 2018
5 min
未来的艺术创作,也是人工智能的天下吗?
前一阵的《中国好声音》里面,有一期节目,我们的师弟宿涵,向杰伦展示了如何用人工智能谱曲。在此之前,微软团队也宣布,小冰具备了看图写诗的能力,还出版了由人工智能创作的现代诗集《阳光失了玻璃窗》。而在苹果安卓的应用市场上,已经有非常多的app(deep art/prisma等等),可以将你拍摄的照片,处理成梵高、毕加索画作的风格。那么,AI已经具备艺术创作的能力了吗?答案是:Yes and No,是也不是。先说一下Yes的部分:大家知道,在音乐、诗词、美术等领域,知名的艺术家,都有自己的独特风格。莫扎特优美典雅的旋律、苏东坡豪迈旷达的诗词、梵高充满想象力的画作...而这些宏观上的风格,是从微观上的一系列特征中体现出来的。- 音乐中的节奏、旋律、音色- 诗词中的韵律、平仄、对仗- 绘画中的构图、色调、光效等等而从海量数据中,提取数据特征,正好是人工智能所擅长的事情。莫扎特、苏东坡、梵高所具备的独特风格,从大数据和人工智能的视角来看,是他们作品的数据特征与其他人不同。简单举例来说:在音乐中,“1 3 5”后面的下一个音用什么,莫扎特有常用套路在诗词中,“大江东去”后面接什么,苏东坡有常用套路在绘画中,向日葵的形态、颜色、纹理,梵高有常用套路对于音乐、诗词这一类有前后序列关系的数据,可以采用RNN的结构来提取数据特征,并预测下一个音或字。对于绘画这样的图像数据,可以采用CNN的结构提取数据特征,并且通过迁移,将这些特征应用到新的照片上。(这里的RNN和CNN都属于人工智能中的神经网络结构,分别是Recurrent Neural Network和Convolutional Neural Network的缩写。)回答开篇的问题,准确的讲,应该说AI可以提取艺术作品的数据特征,并且依据这些数据特征,生成新的作品。目前的AI艺术创作,都是基于这样的基本原理。下面来说一下No的部分:以目前我们对于脑科学的认知水平来说,灵感、创意等等是人与机器的本质差别。制造与创作,这两个词现在还是有差别的。人工智能的方法,采用数据特征提取与迁移,可以制造出新的作品。而艺术家们,是如何产生这些本源的灵感创意,并且创作出这些作品的,我们目前还不得而知。在现阶段,人工智能与艺术家二者的融合已经开始,有一些新派的艺术家,从AI生成的作品中获得灵感,进行再创作。伴随脑科学的进步,或许在不久的将来,AI的艺术创作将成为现实。
Dec 16, 2018
4 min
你值得掌握的新名词:人工智能、机器学习与深度学习
我们身边的各种媒体,常常出现这样三个词汇:人工智能、机器学习、深度学习,今天这期节目,为大家介绍一下它们之间的相互关系。人工智能,Artificial Intelligence,简称AI,顾名思义,是指采用人工方式使得计算机具备认知、分析、判断、预测等能力的方法。早在上世纪50年代,工程师就已经开始尝试,让机器像人类一样思考和解决问题。AI的实现方式,可以采用数据学习,也可以采用逻辑编程。早期的人工智能,多数是采用逻辑编程的方式实现的,比如一些棋牌类的AI,在某种局面下应该走哪一步,是可以通过逻辑的if else来实现的;而从AlphaGo战胜李世石以来,数据学习的方式取得了非常好的效果,在研究和应用领域都受到非常高的关注。值得一提的是,逻辑编程的传统方式,在今天仍占有一席之地,2018年的星际争霸AI大赛中,获得冠军的队伍采用的方法,就是基于规则的逻辑编程,甚至击败了采用数据学习的Facebook AI团队。机器学习,Machine Learning,简称ML,是人工智能的子领域之一,特指采用数据学习实现人工智能的一类方法。机器学习起源于上世纪80年代,主要研究特定的算法和数学模型,采用海量数据,训练出数学模型的参数。在前面人工智能图像识别的一期节目中,我们介绍了一个简单的式子:X*W=Y,这里的W就是我们的模型,机器学习先要根据问题设计出模型W,然后采用已知的Xtrain和Ytrain,训练出W中的参数,然后对未知的Xtest可就解出Ytest。机器学习有非常多的应用场景:比如根据关键字词等数据识别出垃圾短信和邮件,根据电商平台的订单数据作出供需预测,根据浏览/关注/点赞/回复数据进行新闻头条、短视频的内容推送等等。深度学习,Deep Learning,简称DL,则是机器学习的子领域之一,特指采用多层结构提取数据特征的机器学习方法。深度学习的方法,在一定程度上参考了人处理问题的过程。比如我们识别一辆车,视网膜成像以后,由神经网络进行处理,再把信息传送给大脑,这其中既包含了轮廓、形状、颜色等具象信息,也包含了车灯、反光镜、排气管等抽象信息。深度学习借鉴了这一过程,采用多层结构提取数据特征,低层神经元处理后的信息再传给高层神经元,充分利用数据的低维具象特征和高维抽象特征,实现数据分类、回归等系统目标。近年以来,在图像识别、语音识别、自然语言处理、机器翻译等应用领域,采用深度学习的方式都取得了突破进展。以语音识别为例,输入一段语音,要输出一段文本。以前的机器学习方式,是分步骤的,先识别出“a o e i u u”这些音节特征,然后再识别字,然后再识别词和句子。而深度学习,直接是端到端的,这边是语音,那边是文本,用系统提取数据特征,减少了人为提取中间特征的子步骤。总结一下今天的内容:第一,人工智能、机器学习、深度学习是随着时间进程逐步发展而来的。上世纪50年代、80年代、本世纪10年代是三个主要的时间节点。第二,人工智能、机器学习、深度学习在概念范畴上是逐步递进的。深度学习是采用多层结构提取特征的机器学习方法,机器学习是采用数据训练来实现人工智能的方法。希望今天的内容,能对你有所帮助。
Dec 12, 2018
5 min
《阿凡达》背后的脑电科技
阿凡达的英文avatar 是化身的意思影片中的男一号最厉害的本事,是在一个密封舱里,用脑电与阿凡达连接,让自己的超级化身在真实世界里驰骋。然而,这件事仅仅是科幻吗?你如果到过科技馆,应该会注意过一款脑电游戏:一张桌子,上面一个金属小球,玩家戴上一款特制头盔,然后注意力集中起来,用自己的脑电波让球前后滚动。这里面所用到的,是一种叫做EEG的脑电技术。其基本原理是这样的:大脑在活动时,大量神经元产生的生物电,会使得头部表面的电位差发生变化。通过电极采集这些信号,我们就可以记录下脑电波。大脑在处于不同的状态时,脑电波会呈现出不同的波形。比如,你用大脑默默计数,从1默念到100,脑电波会出现一种波形。你开始冥想,想象你身边是蓝天白云红花绿草,脑电波会出现第二种波形。你回味你最喜欢的旋律,“Do Re Mi Fa So”,脑电波会出现第三种波形。当然,不同人的脑电波也是各不相同的。而且,数学家在思考数学问题、画家在进行创作、音乐家在谱曲时,所形成的脑电波,呈现的规律性可能会更强。这种采集脑电波的方法,有点类似于这样的场景:在一个万人体育馆里,正在进行一场足球比赛。你虽然没有门票,但是在体育馆外也能知晓比赛进程。如何做到呢?当你听到一阵欢呼声后的叹息声,那一定是精彩射门但没进球;持久不息的掌声和欢呼,才是进球。有了采集脑电波的方法,如果我们记录下特定的波形,并且把它作为外部系统的控制信号,这样,你的脑电波就可以用来控制外部系统!以前面提到的脑电游戏为例:我们把体验者从1默念到100的脑电波,设定为让金属小球向前滚动;把从100默念到1的脑电波,设定为让金属小球向后滚动。这样,金属小球就可以被体验者的脑电控制了。采用相同的原理,我们可以把金属小球换成是虚拟世界中的英雄人物,或者真实世界中的阿凡达,通过训练,就可以用脑电波来控制这些外部系统。TED上有一期节目,生物学家训练猴子�用意念控制机械手臂,给自己喂橙汁,控制机械肢体。我在文稿中给出了TED上的播放链接,感兴趣的朋友可以参考。https://www.ted.com/talks/miguel_nicolelis_a_monkey_that_controls_a_robot_with_its_thoughts_no_really?language=zh-cn#t-815195下面,我们来发挥一下想象力,大胆构想一个未来的应用场景:今天我和你说话,是用我的大脑,控制我的嘴部肌肉,讲出的语言通过空气振动,传到你的耳中,你的大脑处理了这些信号,然后明白了我在讲什么。因为空气振动的传播距离有限,我们发明了电话,将声波转化为电波来进行传输。因为语言不通,我们又发明了机器翻译,这头说的中文,那头出来的是英文。但是,我们觉得这样还不够简单。更酷的方式,是我戴上一顶帽子,你戴上一顶帽子,我用大脑想一下要给你说什么,我的帽子把我的想法告诉了你的帽子,然后你就懂了。这便是钢铁侠马斯克的neurallink正在进行的一件事。今天的节目,我们主要介绍了阿凡达背后的脑电科技,人类的大脑是目前世界上最为复杂的系统之一,随着研究的不断深入,以及生物科技与计算机科技更为紧密的结合,相信我们的未来生活,一定会更加丰富多彩。感兴趣的朋友们,可以订阅这一专辑,也欢迎你在留言区,分享你的观点,我们共同进步。
Dec 9, 2018
5 min
揭秘人工智能图像识别
在上一期节目里,我们提到:人工智能可以做短视频实时分类。短视频里面是广场舞、吉他弹唱,还是头文字D的车技飘移,都可以被AI识别出来。这是怎样做到的呢?我们先思考这样一个问题:今天如果你来看视频,你自己,如何识别出里面的车呢?“车”是一个抽象概念,并不与生俱来,而是在后天的过程中,通过数据的学习训练,逐步形成的。小时候的看图识字、生活中的观察、驾校培训、好莱坞大片...这些数据,不断地帮助我们构建和完善大脑中的模型:一辆车,应该具有轮子、门、挡风玻璃、尾灯、排气管、后视镜等要素,这些要素之间还有空间关系(当然,除了视觉等采集到的数据,发动机轰鸣声、汽油味等其他感官要素,也是大脑中车模型的组成部分)。值得一提的是,大脑基于原有模型,还可以吸收新的数据进行叠加学习,比如特斯拉不需要排气管,现在路上见到的绿色牌照是新能源车,等等。对于一张全新的图像,视网膜采集像素,神经元提取颜色、轮廓等信息,大脑将图像信息与抽象概念进行比对,然后形成了图像中是否有车的判断。那么,AI如何能做到图像识别呢?我们很自然想到一种方法,就是模仿人的信息处理过程:通过大量的数据,让计算机形成模型,建立图片与抽象概念之间的关联关系。我们用一个非常简单的等式,来说明这个过程。这个等式是:X * W = Y这里,X是输入,也就是我们看到的图像;W是模型,你可以理解为我们大脑中关于车的模型;Y是输出,也就是抽象概念中的“车”。AI图像识别,有两个步骤:第一步,学习训练。也就是已知X和Y,求解W的过程。学习的方法,是找来大量的车的照片,给这些图像都打上”车“这个标签,进行模型训练。打个比方,还没有完成训练的AI,有点像个小孩,你需要给他很多张图片,用这些数据来训练他,告诉他这些都是车,他才能慢慢掌握车的特征。第二步,预测判断。也就是已知W,给出新的X,求解新的Y的过程。打个比方,已经完成训练的AI,有点像车的专家,因为他见过了太多的车,抓住了车的特征,所以就很容易做出判断,即便是有些新款式的概念车,他也能识别出来。这样的方法,还可以推广到很多其他的应用场景:比如机器翻译,左边的X是英文,右边的Y是中文,google的Chrome浏览器就可以帮你翻译你看不懂的英文网页。语音识别,左边的X是语音,右边的Y是文字,苹果的Siri和小米的小爱同学就能听懂你的话包括更为复杂的自动驾驶等等,其基本原理都是一致的。总结一下我们今天的内容,其实是一个简单的公式:X * W = Y采用海量的标签化数据,人工智能可以被训练出来,帮助我们做预测和判断。在后续的节目中,我将继续介绍我们身边的科技,感兴趣的朋友们,可以订阅这一专辑,也欢迎你在留言区,分享你的观点,我们共同进步。
Dec 6, 2018
4 min
Load more