前百度員工,現 Google 員工,在兩個公司做的都不是搜索相關項目。

先一句話回答:在與搜索相關的基礎技術方面,百度距離 Google 仍有很大的差距,但今天是否還存在量級上的差距存疑。

開頭先扯個不相干的領域,蘇聯 1960 年代裝備的 Mig-25 [1] 截擊機,這是世界上第一款能飛雙三(三倍音速,30000米升限)的戰鬥機。西方世界面對這變態的性能參數驚詫莫名,推斷蘇聯在航空技術上已全面超越西方。直到別連科駕駛 Mig-25 叛逃西方,他們終於有機會接觸真機,才發現它使用的技術其實沒那麼先進,變態的性能指標都是用普通的技術基礎硬幹上去的,飛機非常笨拙以至有「直線戰鬥機」的稱號,可憐的發動機要真飛一次三倍音速落地就得報廢。蘇聯的航空技術並沒有他們想象的這麼逆天。

2009 年我在百度,面對 Google 公開的技術資料和百度的內部系統,我首先想起的就是 Mig-25. 就跟這臺戰機一樣,當時的百度,在中文搜索結果質量的各項指標上,對比 Google 還是有優勢。百度的工程師非常聰明,也非常努力,在某些點上也做得很細很出色,但是在與搜索相關的基礎技術上,百度還是全面落後。百度的搜索質量提高,有很大部分是依靠人工做大量細緻的策略調整硬拉上去的。

用普通技術飛上雙三,Mig-25 本身是個了不起的工程成就。下一代戰機,不管是蘇聯的 Su-27 還是美國的 F-15, 乃至四代機 F-22, 都沒有能飛出雙三來的,但這些下一代戰機在技術水準和整體性能上,無疑遠勝 Mig-25, 這應該能算得上題主所說的量級差異。技術的量級差異不能拿某個特定指標或孤例評估(Mig-25 還曾擊落過 F/A-18 呢),也不能只比較某些技術點上的優劣,而往往是決定於基礎技術水平。

在 2009 年,我可以很肯定地說百度搜索相關的基礎技術對比 Google 有量級差距。據我了解,這些年百度在基礎技術方面進步很快,當然同時 Google 也在快速進步。它們在今天是否有量級的差異,我不確定。

下面列幾個重要的而且公開資料較多的基礎技術:

  • 大規模機群建設與管理。Google 的情況可以參見 [2] The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines, Second Edition. Google 擁有世界上最大的計算機集群,論機器數量的話能在量級上超過所有其他公司。同時,它有一整套自動化管理軟件,以便工程師申請和使用這些硬件資源(大致可以理解成一套 Amazon EC2)。就我的了解,現在在普通工程師使用機群硬件資源的方便程度和可以使用的量上,百度還是遠遠不及。
  • 大規模計算與存儲。Google 論文老三篇 GFS, MapReduce, BigTable 不再贅述,近年 Google 在這些方面的研發和進步沒有停滯甚至在加快。當然百度也在努力追趕,百度不僅使用 Hadoop, 而且基於 Hadoop 做了大量改進和擴展,並貢獻回 Hadoop 開源社區。百度在 SSD 存儲技術等方面也很有心得,比如 flash 存儲方面最近中了的一篇 ASPLOS ’14 SDF: Software-Defined Flash for Web-Scale Internet Storage System.
  • 機器學習和人工智能。被吹得神乎其神的 deep learning 和 Google Brain 等等。在 deep learning 這個相對較新的領域,百度追趕的更快,水平也更接近。

機群管理的技術水平決定你能擁有和有效使用多少硬件資源,大規模計算與存儲決定你能在這些硬件上做多大規模的事情 —— 而最後,搜索引擎本身就是一套大規模機器學習系統。

在純技術之外,我想特別提一點極大影響技術進步,而至少在 2009 年百度與 Google 差距巨大的因素:普通工程師所能使用的工具水平。我在 Google 感覺最爽的事情是我可以很容易獲得大量的計算資源,做以前無法想象的大規模數據分析。要驗證一個想法,我可以基於一整天的搜索記錄做分析,只需幾分鐘就能得到結果(參見 [3]),進行調整和下一步分析;而如果沒有這套基礎軟件和可以隨意使用的硬件資源,我可能得等一整天才能有結果,或者只能分析小規模的抽樣數據。在我自己的知識和技術水平不變的前提下,Google 這套系統極大地提高了我的工作效率,讓我能做到以前完全無法想象的事情。

我覺得作為一個技術人員,黑或者捧哪個公司毫無意義,技術的事情很直接的,身在哪個公司都無法影響基本判斷。還在百度的時候,我就經常想,Mig-25 的故事是個很好的警示,人很容易為類似「雙三」這樣的成就沾沾自喜,而對實打實的基礎技術差距視而不見,不圖進步,那前景就相當危險了。幸好據我所知的情況,百度可沒有這麼不爭氣。

[1] Mikoyan-Gurevich MiG-25
[2] The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines,
Second Edition

[3] Dremel: Interactive Analysis of Web-Scale Datasets

— 完 —

本文作者:布丁

【知乎日报】
你都看到这啦,快来点我嘛 Σ(▼□▼メ)

此问题还有 154 个回答,查看全部。
延伸阅读:
Google 搜索比百度搜索好在哪些地方?
Google、百度、搜狗三个搜索引擎的侧重点有什么不一样?

分享到