Evaluación de Integridad de Datos por Métodos Estadísticos con Inferencia por Remuestreo
v3.0 · Monte CarloFecha: · Análisis no supervisado · simulaciones Monte Carlo
Esta herramienta implementa un enfoque de inferencia por simulación: para cada estadístico forense calculado sobre los datos observados, se genera una distribución de referencia empírica mediante Monte Carlo. Se simulan B muestras del mismo tamaño n desde N(μ, σ) (redondeadas a la resolución del instrumento), y se calcula el mismo estadístico en cada muestra simulada. El p-valor empírico es la proporción de simulaciones que producen un estadístico tan extremo o más que el observado.
D = sup|Fₙ(x) - F₀(x)|, donde F₀ es la CDF de la distribución de referencia. El p-valor se obtiene por Monte Carlo ya que F₀ puede no ser exactamente continua tras el redondeo.
χ² = Σ(Oᵢ - Eᵢ)²/Eᵢ con gl=9 y Eᵢ = n/10. El p-valor paramétrico asume gl=9; el p-valor Monte Carlo simula muestras reales redondeadas y calcula χ² en cada una para verificar que la distribución de referencia real (no teórica) sea efectivamente uniforme.
MAD = (1/9)Σ|pᵢ - bᵢ| donde bᵢ = log₁₀(1+1/i). Clasificación de Nigrini: MAD ≤ 0.006 (conforme), ≤ 0.012 (aceptable), ≤ 0.015 (marginal), > 0.015 (no conforme). Importante: Benford requiere datos que abarquen varios órdenes de magnitud; para variables biomédicas estrechas, la prueba tiene baja potencia y se pondera menos.
R = número de rachas respecto a la mediana. E(R) = 2n₁n₂/n + 1. Bajo n > 20, Z = (R - E(R))/√Var(R) es aprox. normal. El p-valor Monte Carlo permuta los datos y cuenta rachas en cada permutación.
r(k) = Σ(xᵢ-x̄)(xᵢ₊ₖ-x̄) / Σ(xᵢ-x̄)² para lags k=1,...,5. Banda de ±1.96/√n bajo H₀. El p-valor para lag-1 se obtiene por Monte Carlo.
H = -Σ pᵢ log₂(pᵢ) sobre los dígitos terminales. Se compara contra la distribución de H obtenida en B simulaciones de datos reales redondeados.
Se calcula la proporción de valores únicos y se compara contra la distribución obtenida por simulación. La tasa esperada depende fuertemente de n, σ y la resolución del instrumento.
Curtosis excess = m₄/s⁴ - 3. Asimetría = m₃/s³. Se comparan contra distribuciones de referencia por Monte Carlo.
MSSD = Σ(xᵢ₊₁-xᵢ)²/(n-1). El ratio η² = MSSD/s² tiene E(η²)=2 bajo independencia. η² < 2 sugiere autocorrelación positiva; η² > 2 sugiere alternación. P-valor por Monte Carlo.
Se combinan los p-valores de las 9 pruebas usando el método de Fisher: X² = -2Σln(pᵢ), que bajo H₀ conjunta sigue χ²(2k). Esto evita la arbitrariedad de pesos subjetivos y proporciona un test ómnibus con p-valor formal.