martes, junio 22, 2010

Criptografía clásica. Datos Estadísticos

Datos Estadísticos

    Datos estadísticos son tan solo los datos obtenidos de un recuento o de un estudio. En nuestro caso son los datos obtenidos del estudio de las letras y palabras del castellano, concretamente de su frecuencia de aparición. El conocimiento de estos datos nos será de utilidad, entre otras cosas, para el estudio y análisis de textos cifrados.

Frecuencias de aparición de las letras en castellano

Para obtener las frecuencias reales para las letras del alfabeto lo ideal sería contabilizar la ocurrencia de cada letra en cada expresión posible es Castellano, pero esto es imposible. Se ha estudiado una muestra de texto plano suficientemente grande (más de 5 Mb) como para obtener unas frecuencias que no deben diferir en mucho de las reales.

A continuación se muestra una gráfica con los resultados obtenidos:



Para mayor facilidad de consulta se han ordenado las letras alfabéticamente y por frecuencias:

a) Ordenadas alfabéticamente

A continuación se muestra una tabla con las frecuencias de las letras que han dado lugar a la tabla anterior ordenadas por orden alfabético.

a 0.088
b 0.010
c 0.034
d 0.040
e 0.094
f 0.006
g 0.010
h 0.005
i 0.051
j 0.003
k 0.000
l 0.041
m 0.020
n 0.051
ñ 0.001
o 0.062
p 0.020
q 0.006
r 0.048
s 0.055
t 0.033
u 0.027
v 0.007
w 0.000
x 0.002
y 0.007
z 0.003
espacio 0.164

b) Ordenadas por frecuencias

A continuación se muestra una tabla con las frecuencias de las letras que han dado lugar a la tabla anterior ordenadas por frecuencia de aparición.

espacio 0.164
e 0.094
a 0.088
o 0.062
s 0.055
i 0.051
n 0.051
r 0.048
l 0.041
d 0.040
c 0.034
t 0.033
u 0.027
m 0.020
p 0.020
b 0.010
g 0.010
v 0.007
y 0.007
f 0.006
q 0.006
h 0.005
j 0.003
z 0.003
x 0.002
ñ 0.001
k 0.000
w 0.000

Palabras más frecuentes

A partir del estudio de un gran fichero de texto se ha llegado a la conclusión de que las palabras más usadas del Castellano son las siguientes:

palabra frecuencia
de    0.0659
la    0.0351
a     0.0319
el    0.0270
en    0.0259
y     0.0258
que   0.0238
los   0.0157
del   0.0133
se    0.0111
las   0.0103
por   0.0098
con   0.0075
un    0.0073
su    0.0064
una   0.0063
no    0.0058
para  0.0057
al    0.0055
es    0.0053
lo    0.0042
pero  0.0017
ya    0.0012
hasta 0.0011

Próximamente...
    Cifrados de Basura en Medio

No hay comentarios: