微信邦

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

返回列表 发新帖
查看: 2292|回复: 0

如何成为一名优秀的数据工匠?

[复制链接]
发表于 2020-8-26 21:34:40 | 显示全部楼层 |阅读模式
生活圈制作

01    优秀数据架构师成长之路


盖国强「数据工匠」这是一个非常有意思的话题,在我的理解里,工匠首先意味着“精深”,钻研一个领域达到精深的境界才能称之为工匠。

第二可能意味着“持久”,只有在一个行业持续不断的钻研,才能达到精深的状态。

第三应该还包含了“痴迷”,当我们谈到某一个人在某一方向达到了工匠的境界,在我看来他对这个技艺是痴迷的,可能为此废寝忘食。


从我的个人经历来看,我在这个行业里已经坚持了20年。20年前很多人还意识不到数据会有这么重要,今天所有的企业数据都成为了宝贵资产,数据成为智能时代的驱动力,我们每个人每天都在和海量的数据打交道。


其实我们在最初进入一个行业的时候不太会有那么清晰的认知,当你进入一个行业或者一个新领域的时候,最重要的是低下头来、扎下根来,把你手上的事情做到最好。


最好能够在这个过程中找到兴趣,通过兴趣来驱动你持之以恒的投入。或者是发现你并不热爱它,然后再找到另外一个你热爱的方向。 我当年就是一开始扎下头来,努力去理解、学习、然后找到乐趣并且坚持下来。虽然这些年金融、电商都发展得非常快速,但我没有中途转换方向,一直坚持下来,才有了现在这样的局面。


这就是我个人所理解的“工匠”精神,就是要精深、持久、达到痴迷的境界。


分享一个小故事,当年我们在学习数据库技术的时候,整个互联网才刚刚兴起,还找不到特别多的分享资源与学习资料。那我们是怎么做的呢?我们聚集了一群热爱技术的朋友创建了论坛,叫做 ITPUB 技术社区,我们共同分享一起成长。


记得那个时候,社区里每一个帖子我都要去回,至今我在论坛上的积分还是第一位的。为了回答一个问题可以忘记吃饭,我现在也很怀念那段时光。最初的学习和积累,让我获得了最宝贵的经验。后来我在互联网上结识了志同道合的朋友,创建了今天的公司,这是我的一点小感想,分享给大家。 林晓斌:如果我们想要对数据库有更深入的了解以至于到达工匠水平,很重要的一点就是要保持好奇心。我们在网上会看到很多最佳实践,好奇心会引发我们深入思考:为什么这样就是最佳实践,而那样做就不是?


第二要勤动手,对于数据库领域,当有一个想法时就要设计一个方案去验证它,不能只是纸上谈兵,用动手得到的结论来印证自己的理论,这样做可以提升自己的技术深度。


第三点,就像国强老师说的那样,多多分享,把自己理解的东西写出来。在分享的过程中能够重新梳理自己的知识框架,查缺补漏,形成新的知识体系。


好奇心、勤动手、多分享,可以让我们快速来积累技术。


我也分享一个自己的故事。我是怎么进到这个领域呢?我刚毕业的时候是做应用工程师写服务器程序的,那时候是 MySQL 的一个用户。2008 年时我发现一个情况,平常正常的读写都是一毫秒或两毫秒,但一天跑下来偶尔一两次会出现100毫秒,对于一个性能很敏感的业务来说,这100毫秒会突然间抖动一下,我就想:为什么会这样?然后自己去分析,才知道原来是刷脏页导致的。


了解这个原理后,就容易复现了。我先做大量的更新,然后再去测试查询,十几分钟就能复现这个现象。当你有理论基础做指引,再动手验证自己的推论,问题就不难解决了。    虽然我当年还没有圆满解决问题的能力,最后的解法也是通过应用层的缓存来规避这个问题。但这个状态跟我一开始不知道是什么原因而选择绕过是完全不同的,慢慢的追求真相的过程是非常有趣的。



       杨振涛:其实每一个人因为专业背景和职业生涯的发展状况不一样,所以发展路线也并不完全一样。就我自己而言,我一开始并不是立志于要做一名程序员,其实我最早的理想是研究人类生命的奥秘,看起来会是一个很宏大的命题。

那我是怎么从人类生命奥秘的研究,走到了互联网领域,并且每天跟数据打交道的呢?我们知道生命科学和生物科学是非常年轻的学科,到上世纪中叶才慢慢成熟。更早之前大家都是学医学的,完全没有人会去学比如生态学那些东西,大家也不理解为什么需要保护野生动物,多元能给我们带来什么好处等。


十年前我在研究怎么测人类的基因,把由ATCG组成的基因序列从实验数据里解读出来,彼时生物学也经历了从实验生物学到计算生物学的过渡。虽然每天研究的基因序列数据看起来是在研究人类生命的奥秘,但更多还是在做数据分析:从生物生化实验获得数据,然后挖掘出跟人类性状表现相关联的片段或位点。

比如癌症病人的某个组织可能发生了一些变化,那么他的数据跟健康人的数据会有什么区别?经过比对最后会找到一些关联的位点,可能会对制药公司有一些参考价值,让制药公司去做下游。


通过这样的过程我就进入了数据相关的行业,所以大概十多年前,就已经在使用今天互联网广泛应用的一些所谓人工智能相关的分析方法。比如我们最常见的需要做主成分分析、归因分析和数据聚类分类,这是数据分析里最基本的方法,而这些基础反而是我此前在另外一个领域所奠定的。  后来随着成长,我发现对人类生命探究的道路过于遥远,于是转行到了消费互联网。虽然我在 Nature/Science 顶级期刊的论文上也挂了一些名字,但学术离我已经很遥远了,我更加期望关注消费互联网给大家创造的直接价值。

比如我做的手机上的搜索功能,有三亿多用户每天在使用,它哪里不好用我也可以通过行为数据来发现和改进,这就是我们能通过数据所创造的价值。

在数据这条路上首先我们要保持好奇心,不管是对业务的好奇心还是对技术关键点的好奇心,它都会驱动着我们在数据这条路上发展得更好,走得更远。




02    数据库技术发展现状及未来趋势


    盖国强:对于数据库领域,今天就是最好的时代。为什么这样讲?大家可以看到,在过去数据库发展的四十多年里,一直是国外的产品占据了主流,并且直到今天它们仍然是市场上的主要产品,大家可能最熟悉的数据库就是Oracle。


但今天国产数据库正在崛起,持续渗入到各种各样形态的应用里。尤其在今天这样的国际国内发展形态之下,我认为所有在这个领域学习就业的朋友们,我们遇到了一个发展的最好时机,可以将过去所学到的知识和技术,在国产化大背景之下,发挥更重要的作用。


数据库自身有什么样的发展新形态呢?我个人认为主要有三点:


第一点在数据库产品本身,分布式渐渐成为一个趋势。而分布式数据库,其实也是国产数据库有可能进行弯道超车获得领先优势的一个方向,因为中国有最庞大的用户群体。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信邦网联系QQ|Archiver|手机版|小黑屋|鲁公网安备 37082802000167号|微信邦 ( 鲁ICP备19043418号-5

GMT+8, 2020-9-18 22:08 , Processed in 0.156755 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Wxuse Inc. | Style by ytl QQ:1400069288

快速回复 返回顶部 返回列表