随着大数据时代的到来,许多数据挖掘算法被广泛使用,它们的优势可概括为:(1)识别数据中的隐藏模式;(2)捕获复杂的非线性关系;(3)自动学习模型;(4)无需定义完整的输入和输出变量之间基于物理的数学关系。在勘探地球物理学中,由于岩石物理响应多解性,使得地球物理数据与地质分类之间存在复杂的非线性关系。例如深层碳酸盐岩缝洞型储层由于岩性多变、易发生的成岩作用和随机裂缝,导致存在很强的非均质性。此时,单一属性的地球物理数据难以实现对储层的准确识别,需要通过地质-地球物理结合的手段进行研究,机器学习方法是处理复杂数据问题的强大工具,是解决这类问题的钥匙。然而,岩性识别是一个典型的多元分类问题,但现在的大多数算法都是针对二元分类问题而开发的,且每种算法都存在固有的局限性,将多元分类转化为二元分类并非易事。
针对上述难题,中国科学院地质与地球物理研究所硕士研究生郑文浩、导师田飞高级工程师和底青云研究员等以塔河油田为例,利用深层碳酸盐岩缝洞型储层丰富的常规测井信息,结合岩心和电成像测井(FMI)资料,同时应用主成分分析(PCA)、K-means、线性判别分析(LDA)3种算法进行测井相综合预测。
方法如下:(1)首先是数据预处理,采用箱形图去除异常数据以及深度不匹配的数据,并进行了Z-score标准化处理;(2)然后通过PCA对测井参数降维,将7维数据转化成2个互相独立的变量,简化了数据结构(图1a、图1b)。然而,一次PCA处理后,各种测井相数据点之间仍存在大量重叠。为了进一步简化数据结构,他们将洞穴数据点和非洞穴数据点做二次PCA处理(图1c、图1d);(3)对得到的数据集进行K-means聚类(图2),根据测井相的种类以及复杂程度选择合适的k值,并以岩心约束下的FMI图像确定测井相的标签,实现了地球物理数据的半定量解释与地质信息的定性解释相结合,从而建立了测井相-岩相数据库(图3),在测井相-岩相图版标定了每个测井相的区域范围;(4)最后为实现测井相的自动化定量预测,使用LDA算法获得了6种测井相的判别函数,将某一深度点测量的测井信息代入上述的判别函数,函数值最大者作为该点的测井相类型归属(图4)。该测井相预测模型的正确率达到了92%,并能够快速获得测井相预测结果,对于提高勘探效率、节约勘探成本具有重要意义。
图1 PC1-PC2交会图。(a)PC1-PC2交会图中的初始数据点;(b)在PC1-PC2相交图中,基于FMI图像的粗略识别,数据点可分为两类:非洞穴数据点和洞穴数据点。非洞穴数据点的线性相关线的系数为-0.697,洞穴数据点的线性相关线的系数为1.874;(c)在PC1(非洞穴)-PC2(非洞穴)交会图中,非洞穴数据点的线性相关线斜率为0;(d)在PC1(洞穴)-PC2(洞穴)交会图中,洞穴数据点的线性相关线斜率为0
图2 数据经过K-means处理,通过FMI图像进行标定每类数据点的测井相。(a)K-means将非洞穴数据划分为16类;(b)K-means将洞穴数据点划分为8类;(c)第14类非洞穴数据点标定为裂缝相;(d)第37类洞穴数据点标定为洞穴(未充填)相
图3 测井相-岩相图版。(a)非洞穴数据点的测井相-岩相图版;(b)洞穴数据点的测井相-岩相图版
图4 应用测井相预测模型预测S75井的测井相,通过FMI图像验证预测结果
该研究的底层逻辑是用地质信息约束多属性的地球物理响应,并通过机器学习算法对多参数的地球物理数据进行数据挖掘,以实现利用地球物理数据自动预测地质信息的效果。目前项目组也正在探索一条地质-地球物理-数据分析相结合的综合解决方案。
研究成果发表于MPG。(Zheng W, Tian F, Di Q, Xin W, Cheng F and Shan X. Electrofacies classification of deeply buried carbonate strata using machine learning methods: A case study on ordovician paleokarst reservoirs in Tarim Basin[J]. Marine and Petroleum Geology, 2020: 104720.DOI: 10.1016/j.marpetgeo.2020.104720)(原文链接)