Strona główna » Algorytmy » Szyfry » Kodowanie Base64

Kodowanie Base64

Wstęp

Kodowanie Base64 jest to kodowanie, które pozwala przechowywać binarne dane zapisane przy pomocy kodu ASCII jako zwykły, czytelny tekst. W ten sposób dane mogę być bezpiecznie przesłane przez sieć bez obaw, że część wiadomości podczas przesyłania zniknie. Mogłoby się to zdarzyć, ponieważ różne serwery różnie interpretują dane i mogłoby się zdarzyć, że jeden z użytych serwerów wcześniej zakończył przesył danych niż powinien. Obecnie kodowanie Base64 jest bardzo popularne w Internecie. W tym kodowaniu są zapisywane załączniki w poczcie mailowej czy niektóre obrazki w Internecie.

Algorytm

Kodowanie Base64 składa się z zaledwie 64 znaków: wszystkich liter alfabetu łacińskiego, zarówno małych (a - z) i dużych (A - Z), cyfr (0 - 9) oraz dwóch znaków dodatkowych. Według oryginalnej konwencji są nimi znak plus + oraz dzielenia /. Ze względu na fakt, że informacje w tym kodowaniu mogą zostać przesłane w pasku URL przeglądarki to zaczęło się przyjmować, że pierwszym znakiem dodatkowym jest myślnik -, a drugim podkreślnik _.

W celu zamiany kodu ASCII na Base64 należy najpierw zapisać dane w postaci binarnej. Standardowo jeden znak reprezentuje 8 bitów. Base64 obejmuje 64 znaki, dlatego koduje każde kolejne 6 bitów informacji zapisanej binarnie. Pobrana wartość jest zamieniana na wartość dziesiętną. Następnie na podstawie tej wartości należy odczytać z tabelki jaki znak powinien zostać dopisany do wyniku. Poniższa tabelka była stosowana podczas pierwszej wersji tego kodowania:

Kod	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
Znak	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O	P
Kod	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31
Znak	Q	R	S	T	U	V	W	X	Y	Z	a	b	c	d	e	f
Kod	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47
Znak	g	h	i	j	k	l	m	n	o	p	q	r	s	t	u	v
Kod	48	49	50	51	52	53	54	55	56	57	58	59	60	61	62	63
Znak	w	x	y	z	0	1	2	3	4	5	6	7	8	9	+	/

W przypadku, gdy na koniec został 1 lub dwa znaki to grupy bez żadnej wartości na podstawie znaków to należy dostawić znak =. Niektóre standardy Base64 tego jednak nie przewidują i zerowych grup 6 bitowych na końcu nie zaznaczają w żaden sposób.

Przykład

Szyfrując przykładowo słowo Test należy pogrupować znaki w grupy po 3 znaki: Tes oraz t (drugim przypadek zostanie opisany poniżej):

T								e								s
84								101								115
0	1	0	1	0	1	0	0	0	1	1	0	0	1	0	1	0	1	1	1	0	0	1	1
21						6						21						51
V						G						V						z

Zakodowane pierwszy trzy litery to ciąg znaków VGVz. Teraz można przejść do kodowania pojedynczego znaku. Ze względu na fakt, że jest tylko jeden to nieustawione sekcje po 6 bitów będą zastąpione przez =:

t
116								97								107
0	1	1	1	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
29						0						0						0
d						A						=						=

Ze względu na fakt, że jeden znak ma 8 bitów to ustawia on dwa znaki kodujące, dlatego pierwsza sekcja 000000 jest kodowana jako znak A, ale pozostałe nie są modyfikowane przez żaden znak, więc są zastępowane przez znak =. Ostatecznie zakodowany tekst Test to VGVzdA==.

W celu odczytania zakodowanej informacji należy zamienić wszystkie litery z tekstu zakodowanego na zapis binarny zgodnie z wartościami w tabelce, a następnie zapisać jeno koło drugiego. Drugi etap będzie polegał na grupowaniu bitów po 8, a następnie zamianie ich na konkretne znaki zgodnie z kodowaniem ASCII.

Implementacja

Kodowanie

W celu zakodowania danych najlepiej użyć manipulatorów bitów. Pozwoli to na napisanie najbardziej efektywnego kodu. Przykładowy kod zamieniający kodowanie ASCII na Base64 wygląda następująco:

char* koduj_base64(char* data) {
char* table = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
int dl = (strlen(data) + 2) / 3;
int ibit = 7, ibajt = 0, izapis = 0;
char* wynik = new char[dl * 4 + 1];

(1.) Funkcja koduj_base64() przyjmuje tylko jeden argument data - tekst do zakodowania. Na sam koniec program zwróci tekst zapisany przy pomocy Base64. (2.) Zapamiętanie tabelki według której odbywa się kodowanie. (3.) Obliczenie z ilu grup 4 znaków 6 bitowych będzie składał się tekst wynikowy. Dodanie 2 pozwala na doliczenie grupy, która może mieć mniej niż 4 znaki 6 bitowe. Taka sytuacja ma miejsce kiedy długość tekstu nie jest wielokrotnością 3. (4.) Zadeklarowanie czterech indeksów: ibit - określa bit do pobrania z ibajtowego znaku, ibajt - określa aktualnie odczytywany znak z data oraz izapis - pamięta na której pozycji został zapisany ostatni znak dopisany do wyniku. (5.) Rezerwacja dla każdej grupy czterech bajtów oraz dodatkowego bajta dla znaku końca danych.

while (data[ibajt]) {
int val = 0;
for (int i = 5; i >= 0; i--) {
val |= ((data[ibajt] >> ibit) & 1) << i;
ibit--;
if (ibit == -1) {
ibit = 7;
ibajt++;
}
}
wynik[izapis++] = table[val];
}

(6.) Dopóki istnieją znaki do odczytania z tekstu do zakodowania to: (7.) ustal odczytaną wartość na 0. (8. - 17.) Odczytaj kolejne 6 bitów tekstu: (9.) pobierz odpowiedni bit i dopisz go do odczytywanej wartości val. (10.) Przejdź do następnego bitu i (11.) sprawdź czy nie trzeba przejść do następnego bitu. Jeśli tak to (12.) ustal odczytywanie następnego bajta od początku i (13.) zwiększ indeks odczytywanego bajtu. Na koniec (16.) każdej iteracji dopisz do wyniku znak reprezentowany przez wartość zmiennej val.

while (izapis % 4 != 0) {
wynik[izapis++] = '=';
}
wynik[izapis] = '\0';
return wynik;
}

Na koniec pozostaje kwestia dopisania znaków =, które oznaczają, że kodowany tekst nie wykorzystał wszystkich miejsc w grupach, dlatego (18.) dla każdego takiego miejsca: (19.) dopisz znak. Na sam koniec funkcji: (21.) dopisz znak końca danych i (22.) zwróć wynik.

Dekodowanie

Podczas dekodowania istnieje potrzeba odnalezienia najpierw wartości znaku według określonej tablicy i dopiero jej zapis binarny należy dopisać do wyniku. Do wyszukiwania wartości znaku algorytm posługuje się funkcją znajdzPozycje(), który dla danego tekstu data zwraca pozycję znaku c. (W przypadku braku znaku -1, ale zakładamy poprawność zapisu Base64, dlatego nie ma to znaczenia co zwróci funkcja w tym przypadku).

int znajdzPozycje(char* data, char c) {
for (int i = 0; data[i]; i++) {
if (data[i] == c) {
return i;
}
}
return -1;
}

Wtedy do dekodowania posłuży funkcja dekoduj_base64(), która przyjmuje argument data - tekst do rozkodowania i zwróci dane zapisane binarne według tablicy ASCII.

char* dekoduj_base64(char* data) {
char* table = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
int dl = strlen(data) / 4;
int ibit = 5, ibajt = 0, izapis = 0, izapisbit = 7;
char* wynik = new char[dl * 3 + 1];
int valr = 0;

(2.) Zadeklaruj dane tablicy. (3.) Oblicz ile grup zostało zakodowanych. (4.) Zadeklaruj 4 różne indeksy: ibit - aktualnie odczytywany bit z ibajta tekstu zakodowanego, ibajt - aktualnie rozkodowywany znak tekstu zakodowanego, izapis - aktualnie zapisywany bajt tekstu rozkodowanego oraz izapisbit - określa, który bit bajta wynikowego jest aktualnie modyfikowany. (5.) Zadeklaruj tablicę wynikową wiedząc, że każda grupa to trzy rozkodowane znaki. (6.) Zadeklaruj zmienną pomocniczą do buforowania odczytanych bitów.

while (data[ibajt]) {
int val = znajdzPozycje(table, data[ibajt]);
for (int i = 5; i >= 0; i--) {
valr |= ((val >> i) & 1) << izapisbit;
ibit--;
if (ibit == -1) {
ibit = 5;
ibajt++;
}
izapisbit--;
if (izapisbit == -1) {
izapisbit = 7;
wynik[izapis++] = valr;
if (valr == '=') {
while (!data[ibajt])
ibajt++;
}
valr = 0;
}
}
}

(7.) Dla każdego zakodowanego znaku: (8.) znajdź wartość w tabelce i (9.) rozpocznij przepisywanie wszystkich 6 bitów: (10.) dopisz bit do zmiennej valr. (11.) Zmniejsz indeks odczytywanego bitu z pobranej wartości i (12.) jeśli zostały odczytane wszystkie bity to (13.) przejdź do następnego bitu w (14.) następnym bajcie. (16.) Zmniejsz również indeks zapisywanego bitu. (17.) Jeśli już zostało zapisane 8 bitów to: (18.) wróć rozpocznij przepisywanie od nowa i (19.) dopisz odczytaną wartość do tekstu wynikowego. Jeśli (20.) następny znak to znak równości to (21. - 23.) przesuń indeks odczytywanego znaku z data na znak końca danych. Jednak, aby następna iteracja została wykonana prawidłowo to (25.) należy zresetować odczytywaną wartość valr.

wynik[izapis - 2] = '\0';
return wynik;
}

Na koniec działania funkcji należy (28.) dopisać znak końca danych na odpowiednim miejscu i (29.) zwrócić tekst wynikowy.

Testowanie funkcji

Działanie funkcji można sprawdzić przy pomocy poniższej funkcji. Po uruchomieniu wystarczy wpisać żądany tekst i zatwierdzić, aby program wypisał zakodowaną tekst zakodowany w Base64.

int main () {
char* txt = new char[512];
cin.getline(txt, 512);
char* txtk = koduj_base64(txt);
cout << txtk << endl;
char* txtr = dekoduj_base64(txtk);
cout << txtr << endl;
delete[] txt, txtk, txtr;
system("pause");
return 0;
}

Kod źródłowy Implementacja