正文

疫情數(shù)據(jù)資源利用:國(guó)內(nèi)外公開(kāi)數(shù)據(jù)集及采集技術(shù)方案

admin

公開(kāi)于學(xué)術(shù)機(jī)構(gòu)的研究數(shù)據(jù),正演變成重要的信息資源,然而,對(duì)于這些猶如寶藏般的數(shù)據(jù),該如何進(jìn)行有效的利用,眾多的人依舊未能找到進(jìn)入的門徑。能夠掌握系統(tǒng)化的獲取以及處理方法,可使得普通的研究者同樣能夠依托于高質(zhì)量的數(shù)據(jù)去展開(kāi)分析,進(jìn)而避免陷入從頭摸索的艱難境地。

數(shù)據(jù)資源的公開(kāi)渠道

在國(guó)內(nèi)外,頂尖科研的那些團(tuán)隊(duì),常常會(huì)去共享他們所曾進(jìn)行研究的數(shù)據(jù),哈佛大學(xué)維持公共衛(wèi)生學(xué)院的狀態(tài)之下存在的相關(guān)COVID - 19數(shù)據(jù)倉(cāng)庫(kù),約翰斯·霍普金斯大學(xué)發(fā)布的全球范圍內(nèi)疫情有著統(tǒng)計(jì)內(nèi)容之事,都收納記錄了詳細(xì)內(nèi)容,其中包括武漢在內(nèi)的歷史記錄情況,這些所形成的數(shù)據(jù)集在通常情況之下,都經(jīng)歷過(guò)初步的整理,具備著比較良好呈現(xiàn)出來(lái)的結(jié)構(gòu)性。

曾有國(guó)內(nèi)機(jī)構(gòu),像是復(fù)旦大學(xué)公共衛(wèi)生學(xué)院,發(fā)布過(guò)經(jīng)過(guò)去標(biāo)識(shí)化處理的疫情統(tǒng)計(jì)分析數(shù)據(jù)。這些學(xué)術(shù)數(shù)據(jù),和單純的病例數(shù)字相比,常常含有更豐富的維度,比如說(shuō)病例分型、傳播鏈信息等,這為深入分析創(chuàng)造了可能。

專業(yè)化數(shù)據(jù)平臺(tái)的價(jià)值

國(guó)家人口健康科學(xué)數(shù)據(jù)中心構(gòu)建了專門的 COVID - 19 數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)匯集了多源數(shù)據(jù),其中包含了對(duì)武漢早期疫情時(shí)間序列信息的整合,這類平臺(tái)的核心優(yōu)勢(shì)在于已然完成了多源異構(gòu)數(shù)據(jù)的清洗、對(duì)齊以及標(biāo)準(zhǔn)化。

存在像丁香園這般的實(shí)時(shí)動(dòng)態(tài)平臺(tái),雖說(shuō)前端大體都是以可視化圖表作為主要呈現(xiàn),但它的后臺(tái)常常會(huì)為開(kāi)發(fā)者供應(yīng)接口以供其去獲取原始數(shù)據(jù),依憑這些接口,用戶能夠越過(guò)繁雜的采集以及清洗步驟,直接得到能夠?qū)隕xcel加以分析的結(jié)構(gòu)化表格,從而使其效率大幅提高。

自主采集的技術(shù)方案

對(duì)具備技術(shù)背景的用戶而言,自己來(lái)編寫爬蟲(chóng)去采集公開(kāi)數(shù)據(jù)是個(gè)可行的方案,運(yùn)用Python的Requests庫(kù)能夠抓取網(wǎng)頁(yè),BeautifulSoup庫(kù)可以解析頁(yè)面進(jìn)而提取所需數(shù)字以及文本,最終借助Pandas庫(kù)把整理好的數(shù)據(jù)導(dǎo)出成Excel文件。

被采之時(shí),務(wù)必得遵循所設(shè)置得規(guī)則,得敬重網(wǎng)站所擁有的robots協(xié)議,好好地去設(shè)置訪問(wèn)間隔,防止給目標(biāo)服務(wù)器帶去過(guò)大壓力,針對(duì)借由JavaScript動(dòng)態(tài)加載的數(shù)據(jù),有可能則需借助像Selenium這般的工具來(lái)模擬真實(shí)瀏覽器操作才能夠完整地獲取到。

數(shù)據(jù)清洗的關(guān)鍵步驟

常有原始數(shù)據(jù)存在著缺失、重復(fù)或者格式混亂的狀況,Excel所內(nèi)置的Power Query工具特別適宜去完成此類清洗工作,它能夠?qū)瞻讍卧耖_(kāi)展高效處理,還能合并重復(fù)記錄,并且會(huì)把日期等字段統(tǒng)一轉(zhuǎn)變成標(biāo)準(zhǔn)格式。

關(guān)于分類信息,像患者類型、所屬區(qū)域,得構(gòu)建統(tǒng)一的編碼體系。與此同時(shí),要運(yùn)用統(tǒng)計(jì)辦法識(shí)別異常值,比如借著箱線圖或者計(jì)算標(biāo)準(zhǔn)差,找出顯著偏離正常范圍的記錄,并且核查修正,這可是保證后續(xù)分析質(zhì)量的基礎(chǔ)。

數(shù)據(jù)的組織與管理

疫情數(shù)據(jù)具備強(qiáng)烈的時(shí)間屬性,依照時(shí)間序列來(lái)進(jìn)行組織是最為直觀的,在Excel當(dāng)中,當(dāng)以日期列當(dāng)作主鍵,把每日新增確診、累計(jì)確診、治愈人數(shù)等指標(biāo)作為并列字段,運(yùn)用“表格”功能開(kāi)展結(jié)構(gòu)化引用,從而便于公式自動(dòng)擴(kuò)展。

在碰到周報(bào)或者月報(bào)這類并非以日為粒度的數(shù)據(jù)之際,為了能夠開(kāi)展連續(xù)分析,常常需要借助插值之類的方法把那些數(shù)據(jù)轉(zhuǎn)化成日度數(shù)據(jù)。與此同時(shí),要是數(shù)據(jù)涵蓋了地理信息,那么就可以依據(jù)武漢的各個(gè)區(qū)(像是洪山區(qū)、江漢區(qū))來(lái)進(jìn)行分表管理,以此方便后續(xù)的對(duì)比以及空間分析。

數(shù)據(jù)的驗(yàn)證與安全

數(shù)據(jù)溯源機(jī)制的建立是極其關(guān)鍵重要的,要單獨(dú)去維護(hù)一張記錄表格,清晰注明每個(gè)數(shù)據(jù)的來(lái)源網(wǎng)址、收集時(shí)間以及更新?tīng)顟B(tài),借助Excel的數(shù)據(jù)驗(yàn)證功能,針對(duì)數(shù)值字段設(shè)定合理范圍,像確診數(shù)不能為負(fù)數(shù),以此來(lái)防止輸入出現(xiàn)錯(cuò)誤。

任何涉及個(gè)人或者敏感信息的那些數(shù)據(jù),都得開(kāi)展嚴(yán)格的脫敏以及聚合處理才行,要保證沒(méi)辦法識(shí)別出特定的個(gè)體。在進(jìn)行數(shù)據(jù)分析以及報(bào)告的時(shí)候,一定要注明數(shù)據(jù)是來(lái)自哪里,要客觀地去呈現(xiàn)結(jié)果,這是科研倫理的基本要求,同樣也是對(duì)于數(shù)據(jù)背后個(gè)體的尊重。

當(dāng)你運(yùn)用公開(kāi)數(shù)據(jù)開(kāi)展研究的時(shí)候,可曾碰到過(guò)有關(guān)數(shù)據(jù)質(zhì)量或者來(lái)源可信度層面的那種棘手難辦的問(wèn)題?歡迎于評(píng)論區(qū)去分享你的經(jīng)歷以及對(duì)應(yīng)的解決方案。要是本文對(duì)你產(chǎn)生了幫助的話,請(qǐng)給予點(diǎn)贊予以支持。

疫情數(shù)據(jù)資源利用:國(guó)內(nèi)外公開(kāi)數(shù)據(jù)集及采集技術(shù)方案