Co To Jest Entropia Plików

Co To Jest Entropia Plików
Co To Jest Entropia Plików

Wideo: Co To Jest Entropia Plików

Wideo: Co To Jest Entropia Plików
Wideo: Teoria informacji 6/9: entropia w teorii informacji 2024, Kwiecień
Anonim

Każdy plik komputerowy składa się z bajtów. Bajt może przyjmować wartości od 0 do 255. Entropia informacyjna to parametr statystyczny, który pokazuje prawdopodobieństwo wystąpienia określonych bajtów w pliku.

Co to jest entropia plików
Co to jest entropia plików

Możesz wizualnie ocenić stopień entropii za pomocą histogramu - rozkładu prawdopodobieństwa powtórzenia tych samych bajtów w pliku. Na podstawie entropii pliku możemy odgadnąć, jaki typ pliku znajduje się przed nami, widząc tylko jego histogram.

Dla celów demonstracyjnych weźmy trzy pliki różnych typów i porównajmy ich histogramy. Niech pierwszy będzie plikiem tekstowym (*. TXT). Jego histogram pokazano na rysunku:

гистограмма=
гистограмма=

Plik tekstowy zawiera tylko tekst. Każdy znak tekstu jest kodowany określonymi bajtami zgodnie z tabelą kodowania. Chociaż istnieje duża liczba typów kodowania, oczywiste jest, że istnieje ograniczona liczba znaków alfanumerycznych, która zwykle wynosi mniej niż 255. Dlatego tylko niektóre obszary są zajęte na pierwszym histogramie, a niektóre bajty w ogóle.

Poniższy plik będzie w formacie PDF:

гистограмма=
гистограмма=

Ten plik zawiera wszystkie możliwe bajty, ponieważ PDF jest kodowany inaczej niż pliki tekstowe. Przechowuje wiele informacji o usługach: formatowanie, czcionki, obrazy itp. Ale jego histogram pokazuje, że niektóre bajty występują z w przybliżeniu równym prawdopodobieństwem, podczas gdy inne - znacznie częściej niż inne. Stąd wielokrotne ostre błyski na histogramie i ogólnie ma raczej „postrzępiony” wygląd, chociaż zajmuje całą dostępną szerokość.

A ostatni plik jest spakowany w formacie 7Z:

гистограмма=
гистограмма=

Ten histogram ma dwie główne cechy: po pierwsze, wszystkie bajty znajdują się w spakowanym pliku z mniej więcej równym prawdopodobieństwem (dość płaska górna krawędź), a po drugie, nad histogramem praktycznie nie ma wolnego miejsca, co wskazuje na prawie całkowitą nieobecność nadmiarowości takiego pliku. Stąd możemy wnioskować, że algorytm archiwizatora w jakiś specjalny sposób „miesza” bajty pliku w celu uzyskania ich maksymalnie równomiernego rozłożenia.

Zatem entropia w informatyce, podobnie jak w fizyce, jest miarą nieporządku w systemie, w tym przypadku nieporządku w dystrybucji bajtów w pliku. Entropia pozwala ocenić stopień kompresji pliku i – pośrednio – jego typ.

Zalecana: