德塔赛 | Podcast on Podbay

德塔赛

德塔赛 DataSci 是专注数据科学的播客，每期节目会访谈一位数据科学领域的研究者和工程师。欢迎访问我们的官方网站 detasai.com。

Episodes

我们在第一眼看到一个人的时候，就会下意识的对这个人产生所谓的第一印象，有些人“看起来”值得信任，有些人“看起来”非常聪明，甚至有些人“看起来”不善交际。为什么我们会仅凭一个人的外表产生这些第一印象？宋蔓是毕业于加州大学圣地亚哥分校的博士，她的研究方向是认知科学和机器学习。这一期节目，她将和我们聊聊她如何用机器学习模型理解第一印象的产生。了解更多，请访问宋蔓的 Google Scholar 页面。 Find out more at http://detasai.com

Feb 1, 2021

37 min

S2E1 - 用数据科学抗击新冠疫情

用数据科学抗击新冠疫情这期节目邀请到了在MIT读运筹学博士的李凌志同学，来和我们聊一下他在新冠疫情时做的传染病数学建模的工作。他们的模型后来被美国疾病控制与预防中心（CDC）和所用，也被刊登到了纽约时报的头条。我们讨论了用数学建模预测疾病传播的方法和挑战 —— 如何用有限的数据做出有意义的模型？怎么量化模型的好坏？在疫情实时发展的情况下，模型是怎么被优化和改进的？李凌志也和我们分享了一些和医生、医院、决策者合作的故事。想要了解更多，请移步李凌志的公众号文章：在麻省理工抗击新冠疫情实记 (1): https://mp.weixin.qq.com/s/brJPYDhl78kaZtKpppQ8qA 在麻省理工抗击新冠疫情实记 (2): https://mp.weixin.qq.com/s/feLTugkq_g69ygnm-1jf9w Find out more at http://detasai.com

Jan 19, 2021

59 min

DTS 15 - 语言的表示

用适当的方式表示词语是自然语言处理中一个不可或缺的任务。今天的节目中，我们在 UCSD 的同学唐帅和我们讨论了研究词的向量表示的动机和近几年比较流行的词向量表示算法。我们还提到了学习词的表示常用的数据来源，和学习过程中可能需要考虑到一些困难因素。本期嘉宾：唐帅（UCSD 博士在读）话题：自然语言处理内容提要：电子商务系统中的寻找近义词任务词语的表示（representation）和词向量近几年比较成功的词向量的表示算法学习词的表示时常用的数据来源怎么衡量一个词向量表示算法的优劣相关链接唐帅同学的个人主页斯坦福深度学习与自然语言处理讲义中文翻译，其中第二讲介绍了词向量。

May 31, 2018

36 min

DTS 14 - 计算神经科学：大脑怎么工作？

本期节目中我们跳出了“人工”神经网络的范围，探讨了计算神经科学的话题。计算神经科学研究生物的神经系统，试图理解人类和其他生物的大脑到底是怎样工作的。我们在节目提到了：什么是计算神经科学计算神经科学中用到的工具深度学习模型对生物神经之间的信号传递的简化人工神经网络的研究具体受到了生物学的哪些启发为什么人类大脑能耗很低，但深度学习却要面对高能耗的难题

Apr 4, 2018

48 min

工程先于理论：深度学习不是炼金术

前不久刚刚结束的 NIPS 学术会议中，Ali Rahimi 凭借他 2006 年的工作获得时间考验奖（Test of Time Award），并发表了一段非常有趣的获奖演说。这次演说成为了一段时间的热点话题。Ali 的演讲主要表达了对深度学习理论研究工作的忧虑。他提到很多实际效果非常好的深度学习算法并不存在足够严密的理论解释。Ali 将这种现象类比为“炼金术”。虽然演讲表达的观点得到了很多研究者的认同，但也引发很多反对的声音。这一期节目中，我们回顾了这一次演说。相关链接 Ali Rahimi 在 NIPS 2017 的获奖演说可以在 YouTube 搜索到。如果不能访问 YouTube，也可以点击这里在腾讯视频观看。

Dec 17, 2017

27 min

没有数据制造数据也要学习

很多机器学习任务的数据标签甚至数据本身很难获得。我们这一期节目聊到了具有这个特点的几个计算机视觉方面的学习任务。李正钦和我们介绍怎么使用人工制作的图像数据来训练学习算法。可以想像，再逼真的人工制造的图像数据与从现实世界中收集的相比，还是会有很大区别的。因此，简单地在人工数据上训练出来的模型，很难在现实世界中获得好的表现。怎么解决这个问题呢？我们在节目中也提到了几个方法。在这一期节目的制作过程中，我第一次了解到开源动画。我们特别说到了《辛特尔 Sintel》这部动画短片。值得一提的是，这部短片的评分也相当不错呢，豆瓣和 IMDB 评分都在 7.5 分以上。相关链接李正钦的个人主页节目中提到 Blender 为了宣传自己的软件制作了《辛特尔 Sintel》这个开源动画短片，豆瓣链接请点击这里。

Dec 1, 2017

24 min

对抗样本：怎么欺骗机器学习模型

iPhone X 发布后网上出现了很多试图“欺骗”它的面部解锁系统的视频，例如人们发现戴眼镜仍然是可以解锁手机的，但是闭上双眼就不能解锁了。在这个使用场景中，如果面部解锁软件被欺骗而不能认出手机的主人听起来不算是什么大新闻，但如果我们能找到一种方法可以让面部解锁将我们误认成手机的主人，听起来就有点让人紧张了。这一期节目的内容再一次和针对机器学习算法的攻击有关（我们在差分隐私这一期节目中聊到了另一类攻击方式）。在这一类被称为测试时对抗样本的攻击方式中，我们认识到攻击者可能可以用特别的方式给一张本可以正确识别的图片增加噪声，从而让机器学习算法误认为这个图片是其他物件。增加的噪声如此之小，以至于在任何人类看来图片并没有产生任何变化。例如在 MIT 最近发表的这项研究中，研究者用 3D 打印技术制作了一个乌龟。但由于乌龟身上特别的花纹，图像识别算法会坚持认为这只乌龟是一把来福枪。如何找到可以骗过机器学习模型的对抗样本其实并不那么复杂。但是如何防范这一类攻击难度却非常大。聊到最后，我们的结尾甚至有一点点悲观。

Nov 13, 2017

22 min

推荐系统和消费行为

本期嘉宾：万梦婷（UCSD 博士学生）话题：推荐系统推荐系统已经是互联网产品的标准组件。精准的广告推荐是 Google 和 Facebook 的营收支柱。Amazon 首页最显著的位置的商品全部由推荐系统选择。今天这期节目，我们和万梦婷一起讨论了流行的推荐系统实现：从基本的基于记忆的协同过滤，说到了越来越复杂的基于模型的推荐系统。推荐系统也是一个跨越多学科的研究方向。我们聊到相关研究的进展在帮助人们设计更加精准的推荐系统的同时，也在帮助研究者更深入的理解人们的交互行为。例如，推荐系统会给商品的不同属性赋予不同的权重，间接的揭示了消费者购物时的决策过程。另一方面，社会学科（尤其是心理学）的进展也可以帮助我们提升推荐系统的性能。例如，我们聊到了人们在评价一件商品时，会显著的受到其他评论者的意见。当人们想给一件商品打2星到3星时，如果发现商品的评论是全5星，会更倾向于打出2星而不是3星。RecSys 2017年的最佳论文就发现，如果推荐系统在设计模型时考虑到这一类消费者偏见，可以有效的提升系统的性能。

Nov 6, 2017

35 min

数据科学中的隐私保护

本期嘉宾：宋爽（UCSD 博士候选人）话题：差分隐私在淘宝购物、在豆瓣网上打一个分数的同时，我们也无条件地把自己的大量隐私信息交给了不同的网站、商家，因为我们知道自己的信息会相对安全，即使公布也会做匿名化处理。然而我们拱手交给互联网的信息真的那么安全吗？2006年，Netflix 举办的机器学习竞赛所用的数据集中的隐私泄露让我们意识到隐私保护远远比简单的匿名化复杂的多。尽管 Netflix 把数据集中的用户ID和识别码等的识别用户的信息都抹去了，两位研究者通过挖掘一些包含用户信息的电影浏览记录，把这些记录和 Netflix 数据集里的浏览记录进行匹配，反向识别出了在 Netflix 数据集中的个体对应的是哪些人，从而获得了这些用户的其他信息。在这期节目中,我们来讨论在数据收集、公布、使用的过程中，有哪些方法可以减少用户隐私的泄露。其中，宋爽主要介绍了近几年的主流方法，差分隐私（Differential Privacy)。提到的一些内容 Differential Privacy 这个概念是由 C Dwork, F McSherry, K Nissim and A Smith 等人在2006年提出的。宋爽提到了早期的保护隐私的方法 k-anonymity，通过降低数据的精度，使得数据集中的每条记录不可识别。基于 Stochastic Gradient Descent (SGD) 可以满足 differential privacy，并且很多深度学习模型可以用 SGD 来训练，Ian Goodfellow 等人将差分隐私进一步引入了深度学习。具体文章可见 M Abadi, A Chu, I Goodfellow, H. B McMahan, I Mironov, K Talwar, L Zhang(2016)。在 Boosting 的那期节目中，张家鹏也和我们分享了 Boosting 在差分隐私上的应用，具体的工作可以参见 C Dwork, G.N Rothblum and S Vadhan(2010)。苹果在官方网站上特意提到他们使用差分隐私技术保护用户数据安全，参见保护隐私的措施

Oct 30, 2017

22 min

生成对抗网络：两个神经网络的对弈

从大家广泛运用电子邮件的那天起，很多研究者和程序员就开始了和垃圾邮件分类的斗争。垃圾邮件分类的算法越来越精进，就意味着更加逼真的垃圾邮件也可以成功的被筛选出来。站在垃圾邮件生成者的角度考虑，为了能够传播他们的邮件，他们就需要把垃圾邮件设计的和普通邮件更相似，更难以区分。基于类似的思路，本期节目我们和大家聊一聊 2014年Ian Goodfellow提出的生成对抗网络模型(Generative Adversarial Nets)。生成对抗网络把生成器和判别器同时联系起来，生成器用来生成数据集，判别器用来判断某一条数据是人工合成还是在原本数据集中。随着生成的数据和真实数据越来越接近，判别器也就需要更加敏锐。利用生成器和判别器的对弈，达到两者同时进步的目的。提到的一些内容生成对抗网络(Generative Adversarial Nets)是2014年由Ian Goodfellow提出的。现在提到生成对抗网络，一般用GAN这个缩写。刘爽提到了可以将一张现实中的图片转化为梵高风格的油画的工具Deep Dream。其实Deep Dream不仅限于某一种风格，只要可以找到足够样例的图片风格都可以作为转换的目标。节目中我们还提到了利用GAN可以将视频中的一匹普通的奔跑的马变成斑马。视频和具体的解释可以在这里找到。

Oct 22, 2017

22 min