各位網友晚上好,我(wǒ)今天跟大(dà)家談一(yī)下(xià)“大(dà)數據助力疫情防控”。習總書(shū)記指出,要運用大(dà)數據等手段加強疫情的溯源和監測,這是對大(dà)數據作用的肯定,也是對互聯網界的一(yī)個要求。
手機已經成爲另一(yī)張“身份證”
現在手機已經成爲我(wǒ)們個人的另一(yī)張身份證。我(wǒ)們在2018年移動通信普及率是112%,而全球是106%,獨立移動通信用戶的普及率,也就是說扣除了一(yī)人多号,我(wǒ)們是82%,接近發達國家的水平,移動互聯網的普及率高于全球的平均水平。可以說,我(wǒ)們國家有獨立活動能力的人群幾乎都有手機,而且中(zhōng)國實行手機用戶的實名制,從手機用戶就可以識别持有人的身份。
手機可以關聯持有人的位置
一(yī)般手機在待機的時候,用戶會從一(yī)個小(xiǎo)區移動到另一(yī)個小(xiǎo)區,這個時候手機要不斷接收基站發出的測量信号。讀取基站下(xià)發的重選小(xiǎo)區參數,選擇最優小(xiǎo)區,在非待機的時候實際上就是切換了。因爲用戶可能是在移動的,而蜂窩半徑又(yòu)比較密,因此,更新的時間要比較快。目前的更新是秒級,可以說具有實時性。
手機是根據什麽定位呢?主要是利用基站,有幾種方法,可以改進基站定位。如果說用比較好的方法,定位精度可以數十米,一(yī)般目前可能是一(yī)兩百米,5G基站更密,定位精度就更高。
全球導航衛星+數字地圖可提升定位精度
當然,除了基站定位以外(wài),我(wǒ)們用全球導航衛星和數字地圖都可以定位。現在的智能手機比例已經很高了,占手機用戶的比例能夠達到百分(fēn)之八九十,而智能手機都裝了全球導航衛星接收的能力。定位的精度一(yī)般數十米,更好的可以做到米級,但是無法定位室内用戶。另外(wài),數字地圖公司有它的一(yī)些方法來掃描這個街道,因此它的定位甚至可以到每一(yī)棟樓。
一(yī)般來講,手機用戶如果下(xià)載了這種數字地圖的APP,而且開(kāi)機并啓用了定位功能,它就會随着變化新的位置,發送信息給GPS。所以,能知(zhī)道你所在的位置。當然,它的定位精度比基站的方法要好得多。但是,隻限于裝有數字地圖APP的用戶。我(wǒ)們有個比較知(zhī)名的數字地圖公司,目前它現有用戶數是7個億(下(xià)載),占全國移動用戶還不到一(yī)半,隻有43%,所以說覆蓋面是有限的。但是,盡管電(diàn)信的運營商(shāng)覆蓋定位用戶更多、更全面,但是精度并不一(yī)定比數字地圖公司更好。
這裏邊,給出的是一(yī)個數字地圖公司的大(dà)數據地圖,它可以溯源,武漢春節前将近500萬人流到什麽地方去(qù),這裏可以給出一(yī)個很好的走勢。
有了這些數據,怎麽來分(fēn)析疫情的傳播?國際上通常用一(yī)種叫SEIR的模型。它把人群分(fēn)成什麽呢?I就是已經感染病的人群,E是密切接觸者,S目前是健康的,R是最後運算結果是康複人群的,它有一(yī)套規律。中(zhōng)國的學者提出了一(yī)種改進C-SEIR,增加了P和Q,P是疑似人群,Q是确診人群。現在我(wǒ)們國家也是分(fēn)四類,從中(zhōng)可以計算出疫情傳播的模型。
我(wǒ)們可以看到,這是從1月份到2月9日,全國的疫情傳播模型。可以看到傳播的狀況,目前,中(zhōng)國的修正模型,考慮了政府采取措施和大(dà)衆的對于防疫的意識,但所有上面的模型,還是基于城市裏頭感染者和沒感染者,包括所有的加起來是一(yī)個常數,也就是說不考慮城市裏面有流入的和流出的。實際上利用電(diàn)信大(dà)數據,可以把流入流出的一(yī)部分(fēn)人考慮進去(qù),可以使得這個模型更精确。
大(dà)數據可視化——“疫情方寸間”
當然,有了模型,很多大(dà)數據還需要有一(yī)種可視化的表現。這裏給出一(yī)種可視化的方式,每個方框表示每個省。比如說右下(xià)角的方框——湖北(běi),它的背景顔色就比其他的深,也就是感染人群更多。其中(zhōng)綠色是治愈率,黑色是死亡率,可以看到治愈的比例也比其他省要少,死亡的比例反而還比較高。可以看到,這是一(yī)種直觀的看法。
我(wǒ)們有了這種行爲的大(dà)數據,可以精确到每一(yī)個小(xiǎo)區。左圖是百度,以上海爲例,右圖是騰訊,以深圳爲例,它都可以以一(yī)種APP的方式來發布,老百姓可以用,下(xià)載可以查詢,甚至可以查到哪個小(xiǎo)區的具體(tǐ)位置,距離(lí)你所在地方有多遠,裏面有多少個是确診病例。實際上,其中(zhōng)一(yī)家公司說,已經覆蓋了200多個城市了。
現在開(kāi)始複工(gōng)了,這是2月10日,節後第一(yī)個複工(gōng)日,人流的增加也爲疫情的防控帶來了一(yī)些新的壓力。這裏面給出了疫情期間城市的熱力圖,我(wǒ)們可以細化到每個縣,可以讓我(wǒ)們知(zhī)道什麽地方人最多,盡量避免人口的密集。
這裏面是一(yī)個确診患者的行程追蹤。從底下(xià)看是1月21日他離(lí)開(kāi)武漢,乘坐了高鐵,到達一(yī)個地方,21日又(yòu)換了一(yī)個高鐵,到另外(wài)一(yī)個地方,一(yī)直到24日,他發現有症狀了,當然他行程還得繼續,27日又(yòu)到了一(yī)個地方,30日又(yòu)到了下(xià)一(yī)個地方,31日确診了。根據這種确診患者的行程追溯,我(wǒ)們可以很好地知(zhī)道他到過哪裏。現在有些地方是依靠流行病學的調查,去(qù)問這個患者,你什麽時間到什麽地方,一(yī)個是他記不準,另一(yī)個說不準,利用手機的大(dà)數據,可以很好的知(zhī)道。同時,通過計費(fèi)數據,也可以知(zhī)道他平時比較密切的聯系人,也可以知(zhī)道有沒有可能是密切接觸者。
基于衛建委+交通+工(gōng)信數據查找密切接觸者
我(wǒ)們把衛健委的數據、交通系統的數據、工(gōng)信部門的數據組合起來,可以找出密切接觸者。比如說,衛健委可以知(zhī)道确診患者的姓名、身份證号,然後通過交通部,可以給出這個患者半個多月來乘坐過的航班車(chē)次,衛健委讓工(gōng)信部提出,這些人的手機号是什麽?根據手機号,地方政府可以找到密切接觸者,當然這是從官方的查找。實際上平台也可以開(kāi)放(fàng),同行者可以在同行查詢平台查出我(wǒ)所坐的航班和車(chē)次及車(chē)廂,車(chē)上有沒有确診患者,可以很好地發現密切接觸者。
電(diàn)信疫情大(dà)數據平台用于個人自證無疫區行程
目前,是返程複工(gōng)還有節後回家的時間,有些人隐瞞了自己來自疫區、到過疫區的經曆,回到家、回到村(cūn)子裏頭還到處走,雖然看上去(qù)沒有症狀,但是可能已經感染了,并且是有很強的傳染性,導緻了疫情擴散,導緻幾十人甚至上百人被隔離(lí),或者已經被感染。通過手機定位,是可以知(zhī)道這個用戶是不是來自疫區,還是到過疫區,但是這種數據不能直接提供給街道、小(xiǎo)區和鄉鎮,因爲隐私的保護原因,如果我(wǒ)們開(kāi)放(fàng)給他們,很可能不一(yī)定是查患者,說不定用作其他,所以不能這樣做。
現在怎麽辦呢?我(wǒ)們知(zhī)道,根據《個人信息保護法》,本人是可以查詢自己信息的。所以,工(gōng)信部現在統籌三個運營商(shāng),提供了用戶行程的服務。用戶提出來,你可以查詢你本人,在14天前到過什麽地方,當時工(gōng)信部提出是按停留4個小(xiǎo)時以上,這個時候,你有清單,就可以上當地的用工(gōng)單位、街道、小(xiǎo)區來證明你自己沒有到過疫區,這就是自證。目前,這件事情已經開(kāi)放(fàng)查詢上千萬人次了。
現在面臨返程複工(gōng),有些地方的疫情防控措施甚至擴大(dà)化,對一(yī)些疫情确診人數比較多的省,要求全部都不許人家回來。嚴控不能失控,硬核但不能亂來,所以實際上,返程的一(yī)些檢查是必要的,當然就會對旅途帶來一(yī)些影響,這裏比如說以高德地圖爲例,他給出一(yī)個人從濟南(nán)要到上海,沿途經過城市的疫情情況列出來了,上海市對進上海的人有什麽管理及要求也列出來了,包括高速路入口、出口的車(chē)流量,以及大(dà)概這個過程中(zhōng)間有很多檢查站,路程需要多長時間也列出,“返程直通車(chē)”平台也方便大(dà)家,如果返程的人知(zhī)道,我(wǒ)路上大(dà)概要多長時間,要做好什麽準備。
電(diàn)力大(dà)數據在疫情防控中(zhōng)的作用
除了電(diàn)信和互聯網公司的大(dà)數據以外(wài),事實上還有其他大(dà)數據。我(wǒ)這裏講的是電(diàn)力大(dà)數據,一(yī)個家裏邊是否有人在家,是否有人回來,根據用電(diàn)的情況是能區别出來。所以,國網電(diàn)力杭州公司,做了1000多萬條數據收集,開(kāi)發出大(dà)數據分(fēn)析的算法,能夠很好地知(zhī)道,這裏邊有沒有居家隔離(lí)的人,有沒有獨居的人,社區可以根據這個來判斷是不是做針對性地服務。利用電(diàn)力的用電(diàn)狀況,我(wǒ)們也可以知(zhī)道複工(gōng)狀況,根據用電(diàn)量,廣東在2月14日已經是正常時候用電(diàn)量的60%,也就是複工(gōng)率差不多60%。浙江2月14日的複工(gōng)率不到1/3,尤其是溫州,屬于疫情比較嚴重的地方,複工(gōng)率隻有12%。這些是可以比較宏觀地掌握了複工(gōng)的趨勢。
醫療大(dà)數據助力智能診斷
大(dà)數據不僅用于追蹤人群等,還可以幫助智能診斷。從現在統計看,新冠肺炎患者的核酸檢測,目前隻有30%是陽性,盡管它是患病的人,确診了,但是隻有30%。原因是什麽?取樣是從口腔部來取樣的,實際上這裏邊感染不算嚴重,肺部才嚴重。因此,判斷還要根據CT,一(yī)個肺掃描出幾百張這樣CT照片,一(yī)張張看是比較難的,利用大(dà)數據,我(wǒ)們可以用人工(gōng)智能的技術,可以把它還原回一(yī)個3D三維的肺,比較容易看有沒有纖維化,有沒有肺變爲毛玻璃狀。同時,現在還可以根據醫療的經驗,開(kāi)發出感染肺炎患者的CT影像大(dà)數據分(fēn)析評價系統,不一(yī)定要醫生(shēng)看了,這些CT照片可以放(fàng)系統上,進行分(fēn)析,能幫助醫生(shēng)進行病竈分(fēn)析。過去(qù)醫生(shēng)可能要看5個多小(xiǎo)時,現在幾分(fēn)鍾就可以,因爲它把幾百張變成一(yī)張了。
大(dà)數據在新冠病毒肺炎新藥與疫苗研制中(zhōng)的作用
大(dà)數據本身在新冠肺炎新藥研制和疫苗研制裏,也會發揮作用。新藥研制總體(tǐ)上過程是比較長的,新藥的篩選、活性的評價、藥理的分(fēn)析、安全評價等等,到臨床還要做很多工(gōng)作。目前是沒有特效藥的,所以,另外(wài)一(yī)種途徑是老藥新用,把一(yī)些過去(qù)抗艾滋病、流感的藥物(wù)重新檢驗一(yī)下(xià),看它有沒有可能對新冠肺炎有效。我(wǒ)們知(zhī)道,已經上市的和臨床實驗的藥有近萬種,一(yī)種一(yī)種來篩選時間是很長的,而且現在去(qù)積累數據,已經不容易了,如果原來有積累更多的數據更好。這裏舉一(yī)個例子,清華的藥學院,它的人工(gōng)智能藥物(wù)研發大(dà)數據平台,收集了以前冠狀病毒研究裏邊涉及的900多個小(xiǎo)分(fēn)子的實驗信息,利用這個就有可能加快藥物(wù)的篩選。
大(dà)數據優化醫療緊缺物(wù)資(zī)的生(shēng)産組織與調度
大(dà)數據也在優化醫療緊缺物(wù)資(zī)的生(shēng)産組織和調度上有很好的用處。海爾開(kāi)發了疫情醫療物(wù)資(zī)信息共享資(zī)源彙聚平台,一(yī)方面連接醫院,780多家醫院;另一(yī)方面聯系需求的社區,以及能生(shēng)産這些醫療物(wù)資(zī)的企業500多家,它發布了這個需求5000多萬件,另外(wài),它的采購不限于中(zhōng)國,還到全球,所以實現了抗疫資(zī)源的精準對接。湖北(běi)有一(yī)個醫療物(wù)資(zī)需求平台,是由志(zhì)願者開(kāi)發的,它爬取網上的數據,按城市醫院類别分(fēn)類,登出需求、運輸和聯系方式。四川也開(kāi)發了防控應急物(wù)資(zī)的管理系統,把物(wù)資(zī)的入庫、調度、審批、庫存、日常消耗需求彙總在一(yī)起,提高了應急物(wù)資(zī)配置的調度效率,當然這些都是從網上獲取數據。
現在難題是什麽?我(wǒ)們的衛健委,并沒有得到所有醫院的床位數據,因爲過去(qù)是不聯網的,這樣導緻我(wǒ)們不能實時地知(zhī)道什麽床位是有富餘的,什麽可以調度出來。所以這也說明,我(wǒ)們過去(qù)這方面的工(gōng)作都不足。
相關數據的融合将能得到更有價值的結果
另外(wài),數據需要融合,現在不少小(xiǎo)區實行了封閉管理,現在已經有上線的專項排查APP,不用手登記,用手機一(yī)掃身份證,報上體(tǐ)溫,數據自動聯網。還可以記錄下(xià)來現在到藥店(diàn)購買發燒藥、咳嗽藥的人的實名數據,因爲有些人已經有病了,沒到醫院自己買藥,實際上是有很大(dà)風險的。我(wǒ)們還可以将公交卡、網約車(chē)的數據結合起來,這次疫情也是考驗我(wǒ)們,聯防聯控協調調度的機制,包括跨部門大(dà)數據的協調能力。
大(dà)數據協力企業複工(gōng)
現在是複工(gōng)了,很多企業需要工(gōng)人,但是人員(yuán)流動密集又(yòu)有風險,因此企業面臨兩難。杭州采用一(yī)種綠紅黃三色的健康碼的管理方式,區别用戶是不是接觸過确診患者、疑似患者,是不是來自重點疫區,以及隔離(lí)長短,可以分(fēn)别對待。但是,你會擔心填報是不是真實?這裏邊健康碼是要聯系到雲端的,跟網上掌握的數據匹配,大(dà)數據能查出不實的信息。
大(dà)數據與隐私保護
大(dà)數據是雙刃劍,怎麽做到隐私保護。實際上,電(diàn)信的大(dà)數據隻考慮了信令和計費(fèi),不含通信的内容,但是盡管這樣,患者的行爲數據也是敏感的。電(diàn)信大(dà)數據目前隻限于疫情的管控,疫情結束以後,不會再保留有關的原始數據。現在特别要注意的是,除了國務院衛生(shēng)健康部門依法授權的機構以外(wài),其他任何單位和個人,不得以疫情防控,治病防治爲由,未經被收集者同意收集用戶的個人信息。這裏就難了,又(yòu)要保護個人信息,又(yòu)要利用大(dà)數據聯防聯控,怎麽辦呢?有一(yī)種方法,就是原始數據可用不可見。什麽叫可用不可見?有關部委,衛健委、交通部、公安部、工(gōng)信部等可以上報數據的樣本,幫助疫情大(dà)數據分(fēn)析調試平台來調試我(wǒ)們的算法和程序,一(yī)旦調試好程序,再下(xià)發到相關部委,在相關部委的各自範圍裏頭運行并産生(shēng)結果。最後彙報給上面的結果已經不是原始數據了。這樣不改變數據的歸屬所有權和存儲位置,隻帶走了不含敏感數據的分(fēn)析結果。
疫情大(dà)數據系統的信息安全防護
疫情大(dà)數據也是需要特别進行安全防護的,從右上角的圖可以看出綠色是健康數據,健康數據是黑客所重點關注的,甚至2014年,我(wǒ)們國家的網站受攻擊最多的是醫療衛生(shēng)的網站。美國也統計過,遭遇黑客醫療數據的洩露損失很高,而且疫情大(dà)數據不但是商(shāng)業利益問題,還關聯國家政治社會問題,我(wǒ)們以爲疫情大(dà)數據系統是内網就沒問題,但實際上内網也會遭遇攻擊。我(wǒ)們在疫情大(dà)數據的系統上,要明确接入權限與過程審計,用各種各樣的安全措施來确保安全。
爲何新冠疫情大(dà)數據姗姗來遲
爲什麽這次新冠疫情大(dà)數據來得晚呢?這上面是谷歌有一(yī)年某個地方發生(shēng)流感,谷歌的報告流感比美國疾控中(zhōng)心還提前一(yī)個星期,相似度97%。它能提前預警,而中(zhōng)國的這次疫情大(dà)數據,基本上沒有起到預警作用,爲什麽?網上人說,你們說得那麽好,爲什麽你們沒有早說出來?原因是網上信息很多,傳染病根本沒有被列到互聯網界關注的優先點,另外(wài)在發現不明肺炎之初,醫療機構的信息中(zhōng)心也沒有能夠根據十多例的病情分(fēn)析出人傳人,掌握不了病毒控制的主動權,應該說,可惜我(wǒ)們信息技術人員(yuán)敏感性不夠。
大(dà)數據依賴真實數據的開(kāi)放(fàng)
另外(wài)一(yī)個更重要原因,是數據的披露開(kāi)放(fàng)不及時。在發現最初動物(wù)作爲傳染源的時候,案例是比較少的,很難觸發疫情大(dà)數據的分(fēn)析。發展到人傳人的時候,電(diàn)信以及互聯網公司的人行爲軌迹的大(dà)數據才有作用,我(wǒ)們知(zhī)道,武漢的重症病例從發病到住院平均等待了将近10天,有些還沒等到住院就不行了。整個獲得信息延誤了10天,再加上14天左右的潛伏期,病毒已經蔓延了一(yī)個多月,而且一(yī)些錯誤的信息,“不會人傳人”“可防可控”在官方媒體(tǐ)發布。而真實的信息被當做謠言,疫情的數據沒有對外(wài)公布,當公衆知(zhī)道病毒可以人傳人的時候,已經錯過了防控的黃金時間,造成了武漢疫情爆發長時間失控,這種公布數據,不僅僅是爲了大(dà)數據分(fēn)析。華盛頓大(dà)學有一(yī)個研究,“當媒體(tǐ)的報道量增加10倍,疾病的感染數會減少33.5%”,所以應該是更有用的。
大(dà)數據的應用需要有法律保證
另外(wài),大(dà)數據的應用需要法律保證。《傳染病防治法》規定,有關部門要報告疫情和監測,但是沒有明确哪一(yī)級地方政府有權收集當地運營商(shāng)跟疫情有關的數據,也沒有明确政府應該開(kāi)放(fàng)什麽數據,應該公布什麽信息。所以,我(wǒ)們建議,要出台《傳染病防治法》的實施細則,要明确省市政府對疫情防控數據的收集權限和政府各個部門,以及相關企業提供疫情防控有關數據的責任。
電(diàn)信大(dà)數據對疫情防控有用但還不夠
電(diàn)信大(dà)數據對疫情防控有用,但不夠。因爲用戶的信令數據面很廣,而且實時性很好。實際上,每個用戶平均每天有200條左右的信令數據,應該是很好的,很詳盡。基站的定位精度隻有百米的量級,實際上100米的半徑裏,根據這個來确定密切接觸者是不準确的,因爲有很多人隔100米和隔10米的情況是不同的。衛星導航+數字地圖的定位精度是比電(diàn)信基站的定位精度要優,但是它的用戶數覆蓋不夠,所以兩者的結合可能比較好。電(diàn)信大(dà)數據對疫情防控是有很好作用的,但是還是有限的,所以僅有電(diàn)信大(dà)數據不夠,需要跟有關部委融合。
大(dà)數據是方法與輔助工(gōng)具
大(dà)數據本身是一(yī)種方法,整個醫療不僅僅是在院中(zhōng),還涉及到院前、院後和醫院管理,涉及到很多環節。大(dà)數據也不是智慧醫療的唯一(yī)方法,也是要跟其他信息技術結合,同時也要跟醫學專業知(zhī)識結合,需要信息技術和醫學界的緊密合作。
結束語
最後,跟17年前的非典疫情相比,本次疫情是更嚴峻的大(dà)考。但現在用上了先進的醫療技術和大(dà)數據等新一(yī)代信息技術,科學防治、精準施策。在黨中(zhōng)央的堅強領導下(xià),在疫情防控的人民戰争中(zhōng),大(dà)數據的應用環境将進一(yī)步優化,在聯防聯控精準施策中(zhōng)将發揮更大(dà)的作用。我(wǒ)們一(yī)定能夠打赢疫情防控的人民戰争、總體(tǐ)戰、阻擊戰。
祝疫情防控早日取得決戰的勝利,謝謝大(dà)家。