您的数据完整性如何?你的数据去哪了?
数据是任何风电场分析、基准测试或报告的基础。在Clir,我们经常谈论数据完整性,其中一个关键方面就是数据覆盖率:有多少数据可用?丢失了多少数据?
由于理解资产并推动改进的能力是基于站点数据的质量,因此这些问题的答案会极大地影响分析结果的解释方式。
通过Cli万博官网体育英超狼队r Portfolio,我们实现了基于所有可用信息自动标记和分类缺失数据周期的智能逻辑。根据我们的经验,我们还为数据覆盖建立了最佳实践基准。这使我们能够从客户的数据中获得最准确的结果。
问题在于失踪SCADA数据
涡轮机的任何一段时间的数据缺失都可以用以下两种方式之一进行分类:
- 在数据丢失时,涡轮机正在发电。
- 当数据丢失时,涡轮机没有发电。
数据丢失的原因包括:
- 涡轮机没有运转,也没有电力和通讯。
- 涡轮机正在运行,但与服务器的通信断开。涡轮机可以记录数据,以便将来回填。
- 涡轮机正在运行,并与服务器通信,但服务器没有正确记录数据。
- 涡轮机正在运行并与服务器通信,服务器记录了数据,但后来数据丢失或被覆盖。
风电场的数据覆盖率通常为95%或者更多。这听起来可能足够高,数据覆盖率不是问题,但考虑以下示例。
一台涡轮机运转了一年。数据覆盖率为97%。基于可用数据,基于时间的涡轮可用性为95%。
天 | |
全程长度 |
365 |
时间与数据 |
354 |
丢失数据的时间 |
11 |
时间涡轮已经上线了 |
336.3 |
时间涡轮已经离线了 |
17.7 |
在我们有数据的时期,涡轮机的可用性是95%,但是缺少3%的数据会有什么影响呢?涡轮机的实际可用性是多少?这取决于丢失数据期间的涡轮状态。以下是两种可能的场景:
场景 |
一个 |
B |
描述 |
在缺少数据的时间段内,涡轮机是在线生产的 |
在数据丢失期间,涡轮机处于离线状态,没有生产 |
在线时间(天) |
347.3 |
336.3 |
离线时间(天) |
17.7 |
28.7 |
涡轮可用性 |
95.2% |
92.2% |
由于缺少3%的数据,导致涡轮机可用性存在3%的不确定性,这是非常重要的。影响包括:
- 在能源产量评估期间计算总产量时,有3%的差异。
- 在对更广泛的行业的可用性进行基准测试时,有3%的差异。
- 在业主或经营者看来,95.2%比92.2%要好得多。
- 优化:在方案B中,比方案A中有更多的机会提高涡轮机的可用性。
场景A和B代表了涡轮机实际可能发生的情况的范围。真正的答案可能是场景C,它介于两者之间:在丢失的一些数据期间,涡轮机正在运行和发电,而在其余丢失的数据期间,涡轮机处于离线状态。
处理丢失数据的标准行业方法
Clir的软件和服务经常用于支持风电场交易,即买卖项目的股份。通过这个角色,我们经常看到整个行业的顾问是如何处理丢失的数据的。
一个常见的假设是,可用数据的时间段代表不可用数据的时间段。这是一个很容易做出的假设,因为它意味着我们不需要担心丢失数据。这种方法的一个主要问题是丢失的数据周期通常与停机相关。由于涡轮机在维修时处于离线状态,与电源或通信断开,因此数据经常丢失。这一假设引入了对涡轮机可用性的向上偏差。
业内使用的另一种方法是通过日志本、月报或与操作员面谈来手动调查每一段时间的数据缺失,以了解涡轮机的状态。虽然这是可行的,但在规模上是不可行的。一个风电场在一年内出现数十次甚至数百次间歇性数据丢失的情况并不罕见。
Clir处理缺失数据的方法
不幸的是,当数据在源头丢失时,我们就无法找回它.从积极的方面来看,我们可以用通常摄入的数据来解决这个问题。
Clir的软件和数据模型有助于任何数据标签或数据提要的摄取、标准化和应用。在10分钟的涡轮SCADA数据中,通常有数十甚至数百个标签,其中一些标签对于确定之前或后续缺失时段的涡轮状态非常有用。在自动富集过程中,当摄取新数据时,会发生以下情况:
- 初步识别并标记缺少涡轮SCADA数据的时间段。这段时间被指定为“信息不可用”的性能类别。
- 广泛的辅助数据源被认为是分类涡轮状态在每个时期的缺失数据。这些数据源包括涡轮SCADA、变电站SCADA和销售仪表数据中的计数器标签。
- 根据辅助数据,每个缺失的数据周期被划分为“疑似运行”或“疑似停机”的性能类别。“如果涡轮状态不能从辅助数据中确定,那么性能类别仍然是不可用的信息。
- 然后,绩效类别被Clir的软件输入到报告、分析和基准测试中,这样可用性和其他指标就可以准确而可靠地计算出来。
关于数据完整性,改进的缺失数据周期标签告诉我们什么?
如果涡轮机在大部分或所有数据缺失期间都在运行和发电,则认为数据完整性较差。在传输、记录或存储涡轮机SCADA数据的过程中,有一个问题。实际涡轮机可用性仅与可用数据所表明的相似,符合场景A。
如果涡轮机在大部分或所有丢失数据期间没有运行,那么在这方面,数据完整性被认为是良好的。当涡轮机与电源或通信断开时,数据丢失。实际涡轮机可用性明显低于仅由可用数据显示的值,符合情景B。
与其他农场相比,您的农场的数据完整性如何?
在任何项目中,我们都可以查看涡轮机在数据缺失期间的运行频率,以评估数据的完整性。然后将这些结果与同级风电场的结果进行比较,以进一步了解数据的完整性。这是通过我们的市场洞察报告呈现给客户的。
下图显示了最近一年同一涡轮机制造商的11个风电场实际运行的数据缺失百分比。结果因农场而异。
- 在C农场,绝大多数数据丢失发生在涡轮机停机期间,表明数据完整性良好,改进空间很小。丢失的数据期主要应计入涡轮可用性。
- 在F农场,绝大多数数据丢失发生在涡轮机运行时,表明相对较差的完整性和巨大的改进空间。丢失的数据周期不应计入涡轮可用性。
提高数据完整性的好处
一些农场比其他农场更频繁地经历涡轮机SCADA数据丢失的时期。在这些缺失的数据期间,涡轮机实际运行和发电的程度因农场而异。Clir支持风电场业主通过识别、量化和分类丢失数据的周期来提高数据完整性。
在通过Clir Portfolio提供的市场洞察报告中,我们对数据实践进行评级,以确保客户在数据质量万博官网体育英超狼队和覆盖率方面是一流的。这使得更可靠和准确的涡轮性能指标和更低的不确定性能源产量评估结果。增加的P90可用于支持债务优化和提高项目的财务回报。
感谢中级软件开发人员Thomas Broatch为实现这个新特性所做的工作。