您的位置: 揭阳信息港 > 美食

从肝炎日谈百度和google疾病预测的不

发布时间:2019-05-14 23:54:47

7月28日是世界肝炎日。关于这一点,相信很多人或许已经从媒体、社交站和朋友圈得知,比如百度今天就通过各种社交渠道发布了一组主题为小心肝儿的图片,包含了各种关于肝脏保护和使用的常识和诀窍,各种有关肝炎的现状等等。

这些知识包括:世界每三个慢性肝炎患者里就有一个在中国;再比如,中国是肝炎严重流行区之一,乙肝病毒感染者的人数有1.2亿;还有,中国每一年有近40万人死于肝脏疾病;以及,每饮酒一次相当于得一次轻度肝炎,等等。

但是这还远远不够。

首先,你想逾越国界,来一场说走就走的旅行?根据去年CEVHAP(亚太扑灭病毒性肝炎联盟)的数据,亚太区每30秒就有一人死于病毒性肝炎,死亡率是艾滋病的3倍,而从1990年到现在,亚太区死于病毒性肝炎的人数已经从每一年70万人增长到100万人。

其次,你不进行国际旅行,但你像这个国家里一半人那样,住在城市里。贾雷德戴蒙德在《枪炮、病菌与钢铁》中说的,很多群众性传染疾病只有在积聚起足够多的人口才可能发生,很多我们熟知的传染病出现的时间都出奇地晚,它们都源自大规模的城镇化。你总知道中国的城镇化将是近数十年这个星球的奇观吧?

对病毒性肝炎,乃至其他一系列的传染病来讲,那些小贴士有用,但是不足够有用。非常年代,你需要在过去的经验中非常陌生、但未来会对你非常有用的工具:大数据。

为什么要在肝炎日谈大数据?

上面已说过,世卫组织从2011年起设立世界肝炎日,绝非只因为这天是空闲的。人们其实不重视肝炎,一方面是由于肝炎并不像其他一些病毒那样致命和传播快速、普遍,另一方面则是由于肝炎具备一些特点,例如只有部分疫苗,以及非季节性和非飞沫传播等,使其其实不那末容易预防。

但是你应当比之前更重视它,因为它是很严重的沾染疾病,其二是由于我们现在有了更好的工具:大数据。相信我,红极一时的《大数据时代生活、工作与思维的大变革》一书,就是源于谷歌使用大数据对2009年甲型H1N1流感的成功预测。作者在引言中说,这是当今社会所独有的一种新型能力,以一种的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。

具体到肝炎,尽管从百年前发现肝炎病毒和部分疫苗以来,人类在医学上的进展屈指可数,但除打疫苗和切断传播途径、阔别易感人群,其实还有另外一种积极的预防方法那就是上述深刻的洞见,养成使用大数据分析工具的习惯,经常性地了解所在地或目的地的流行病情况,尽量地远离高危的传染源发地。

目前可供个人使用的大数据工具主要有两类,一类是来自医学监测机构的大数据,类似中国的疾控中心,美国的Carolinas Health Care,日本京都大学荒牧研究所等,以来自救治患者统计为主,辅以大数据分析手段,以显示某地区目前流行病的发病情况为主,预测疾病流行走向为辅;另一类则来自搜索引擎和数据分析机构,包括google trends的疾病预测,百度预测6月上线的疾病预测,以及基于社交搜索的sickwether、patientslikeme和融合性的Healthmap等,以预测疾病流行走向为主,展示区域病发情况为辅。

两种数据工具的手段大同小异,区分只在于前者提供的数据多是针对大区域的、服务机构的数据需要,后者则多针对小区域乃至某个城市商圈,为个人消费者服务。考虑到中国人的具体需求,这里我们主要介绍针对国外旅行的google预测,和针对国内的百度预测。

Google 预测:曾很准,现在不好说

谷歌流感预测(早在2008年即已推出,原理是采取流感趋势系统监测全美的络搜索,寻找与流感相干的词语,比如咳嗽和发热等,并利用这些搜索结果来提前9个星期预测可能与流感相关的就医量。

2009年在H1N1爆发几周前,谷歌公司的工程师们在《Nature》上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。

这个工具初运行表现很好,许多国家的研究人员已证实,其流感样疾病(influenza-like illness, ILI)的估计是准确的,并且可以提前数周乃至数月,不像疾控中心一样要在流感爆发一两周之后才可以做到。

但尔后的2013年,《新科学家》发现,在过去3年,该系统一直高估与流感相干的就医量,在这类数据有用的流感季节高峰期尤其预测不准确。在2012/2013流感季节,它预测的就诊量是美国疾控中心(CDC)终记录结果的两倍;在2011/2012流感季节,它高估了逾50%。

《scientists》杂志认为错误源自一种被称作大数据浮夸(Big Data Hubris)的算法变化,例如对模型的人工优化,或是模型对某些不当关键词的自动调整(例如某些搜索其实源于季节而非真实发病),google对此也做出了一些调整,但效果仍待评估。

百度预测:新鲜上线,期待闪光

百度的疾病预测(于今年6月上线,目前可以对全国331个地级市,2870个区县的四种疾病进行未来趋势的预测,某些城市甚至已细化到具体的商圈。目前该产品提供流感、肝炎、肺结核和性病四种疾病的活跃度、流行指数,以及各种疾病相关的城市和医院排行榜,用户可以查看过去 30 天之内的数据和未来 7 天的预测趋势。而且百度还在疾病预测的页面上,整合了百度旗下其他优势产品资源,比如在页面右下角提供了百度百科和百度健康的链接,用户点击过去就可以了解到有关当前页面疾病的各种相关知识。

由于上线时间较短,百度预测的效果还很难评估,但考虑到比google预测上线较晚,加入了一些的技术成果和数据采集结果,这款产品在技术上应该是靠谱的。

例如,从公开资料来看,该产品模型的搭建一是通过历史数据构建统计规律性,比如流感或者手足口等疾病具有季节性周期的规律,二是通过研究疾病人数与其它相干数据的相关性来计算预测结果,同时从统计的角度来验证数据的正确性,以机器提供的数据为基础,加入对异常数据的监控和分析。

而为了让预测的准确率更高,百度还做了另外两方面的努力。其一是在数据合作上,不仅引入权威机构的相关数据而且保持同步更新,这其中不但包含数据互通,同时也会与合作方的专家进行产品交换。

另一点不同在于,百度预测引入社交、天气、人群迁徙等搜索以外的数据,在搜索数据上,google的query数据依赖于Google Correlation产品,而百度则是直接从原始日志中进行清洗、消岐、扩展和分析,相对来讲,理论上更容易避免春季感冒怎么办这样的查询影响结果。另外,百度的地理划分可以细化到城市商圈,可以查询的疾病也比google多。有鉴于此,我们有理由给予其更多的期待。

结语:无论如何,你应该试试

从此前世界杯预测的结果来看,百度具有比google更灵活的数据挖掘手段,和更专业的分析团队,但目前我们面对的现实是,百度还没有提供国外服务,因此我建议在国内使用百度预测,在国外则使用google预测,或者试试基于社交媒体数据的sickwether,据说准确率也不错,达到90%。

需要指出的是,对google的过失过分担心是没有必要的。正如《大数据时期》一书所说,大数据本身探访的是一种趋势,而非性,大数据时代需要学会接受数据的不完美。换言之,不能因为不精确而放弃大数据的应用和发展,若要无限接近统计结果的真,必须让大数据与精细的传统统计方法互补,而非两者相互替代。

百度也需要面对一些挑战。例如,目前我国对大数据给健康服务业发展带来的影响认识不足,在当前的产业发展规划中,忽视了大数据对该产业的影响,这些都需要百度运用其行业影响去改善。

总的来说,从现在开始,你应该养成出门前看看疾病预报的习惯,正如看天气预报那样,它惠而不费,而且已足够好用,这并不仅限于肝炎。少我已开始这么做了。

月经后期的气血两虚吃什么
女孩子痛经怎么缓解
气血虚会痛经吗
猜你会喜欢的
猜你会喜欢的