Տվյալների սեղմում Huffman ալգորիթմի միջոցով

Մուտք

Այս հոդվածում ես կխոսեմ հանրահայտ Huffman ալգորիթմի, ինչպես նաև տվյալների սեղմման մեջ դրա կիրառման մասին։

Արդյունքում մենք կգրենք պարզ արխիվ: Սա արդեն եղել է հոդված Habré-ի մասին, բայց առանց գործնական իրականացման։ Ներկայիս գրառման տեսական նյութը վերցված է դպրոցական համակարգչային գիտության դասերից և Ռոբերտ Լաֆորետի «Տվյալների կառուցվածքները և ալգորիթմները Java-ում» գրքից։ Այսպիսով, ամեն ինչ կտրվածքի տակ է:

Մի փոքր արտացոլում

Սովորական տեքստային ֆայլում մեկ նիշը կոդավորված է 8 բիթով (ASCII կոդավորում) կամ 16 (Յունիկոդի կոդավորում): Հաջորդը, մենք կքննարկենք ASCII կոդավորումը: Օրինակ, վերցրեք s1 = «SUSIE SAYS IT IS EASYn» տողը: Ընդհանուր առմամբ տողում կա 22 նիշ, իհարկե, ներառյալ բացատները և նոր տողի նիշը՝ «n»: Այս տող պարունակող ֆայլը կկշռի 22*8 = 176 բիթ: Անմիջապես հարց է ծագում՝ ռացիոնալ է արդյոք օգտագործել բոլոր 8 բիթերը 1 նիշ կոդավորելու համար: Մենք չենք օգտագործում բոլոր ASCII նիշերը: Եթե ​​նույնիսկ դրանք լինեին, ավելի ռացիոնալ կլիներ ամենահաճախակի՝ S տառին տալ ամենակարճ ծածկագիրը, իսկ ամենահազվագյուտ տառին՝ T (կամ U, կամ «n»)՝ կոդը տալ ավելի վավերական: Սա Huffman ալգորիթմն է. անհրաժեշտ է գտնել կոդավորման լավագույն տարբերակը, որի դեպքում ֆայլը կլինի նվազագույն քաշի: Միանգամայն նորմալ է, որ տարբեր նիշերը կունենան տարբեր կոդի երկարություններ. սա ալգորիթմի հիմքն է:

Կոդավորում

Ինչու «S» նիշին չտալ կոդ, օրինակ՝ 1 բիթ երկարությամբ՝ 0 կամ 1: Թող դա լինի 1: Այնուհետև երկրորդ ամենահայտնի նիշը՝ « « (բացատ) - մենք կտանք 0: Պատկերացրեք, դուք սկսեցիք ապակոդավորեք ձեր հաղորդագրությունը՝ կոդավորված տողը s1, և տեսնում եք, որ կոդը սկսվում է 1-ով: Այսպիսով, ի՞նչ անել. դա S նիշն է, թե՞ այլ նիշ, օրինակ՝ A: Հետևաբար, առաջանում է կարևոր կանոն.

Ոչ մի ծածկագիր չպետք է լինի մեկ այլ ծածկագրի նախածանց

Այս կանոնը ալգորիթմի բանալին է: Հետևաբար, ծածկագրի ստեղծումը սկսվում է հաճախականությունների աղյուսակից, որը ցույց է տալիս յուրաքանչյուր խորհրդանիշի հաճախականությունը (պատահումների քանակը).

Տվյալների սեղմում Huffman ալգորիթմի միջոցով Ամենաշատ երևույթներ ունեցող նիշերը պետք է կոդավորված լինեն ամենաքիչով հնարավոր է բիթերի քանակը. Ես կտամ հնարավոր կոդերի աղյուսակներից մեկի օրինակ.

Տվյալների սեղմում Huffman ալգորիթմի միջոցով Այսպիսով, կոդավորված հաղորդագրությունը կունենա հետևյալ տեսքը.

10 01111 10 110 1111 00 10 010 1110 10 00 110 0110 00 110 10 00 1111 010 10 1110 01110

Ես առանձնացրի յուրաքանչյուր նիշի կոդը բացատով: Դա իրականում տեղի չի ունենա սեղմված ֆայլում:
Հարց է առաջանում՝ ինչպե՞ս է այս նորեկը հորինել ծածկագիր՝ ինչպես ստեղծել կոդերի աղյուսակ։ Սա կքննարկվի ստորև:

Հաֆմանի ծառի կառուցում

Այստեղ օգնության են գալիս երկուական որոնողական ծառերը: Մի անհանգստացեք, այստեղ որոնման, տեղադրման և ջնջման մեթոդները ձեզ պետք չեն: Ահա ծառի կառուցվածքը Java-ում.

public class Node {
    private int frequence;
    private char letter;
    private Node leftChild;
    private Node rightChild;
    ...
}

class BinaryTree {
    private Node root;

    public BinaryTree() {
        root = new Node();
    }
    public BinaryTree(Node root) {
        this.root = root;
    }
    ...
}

Սա ամբողջական կոդը չէ, ամբողջական կոդը կլինի ստորև:

Ահա ծառ կառուցելու ալգորիթմը.

  1. Հաղորդագրության յուրաքանչյուր նիշի համար ստեղծեք Node օբյեկտ (տող s1): Մեր դեպքում կլինի 9 հանգույց (Node օբյեկտներ): Յուրաքանչյուր հանգույց բաղկացած է տվյալների երկու դաշտից՝ խորհրդանիշ և հաճախականություն
  2. Ստեղծեք Tree օբյեկտ (BinaryTree) հանգույցներից յուրաքանչյուրի համար: Հանգույցը դառնում է ծառի արմատը:
  3. Տեղադրեք այս ծառերը առաջնահերթ հերթի մեջ: Որքան ցածր է հաճախականությունը, այնքան բարձր է առաջնահերթությունը: Այսպիսով, արդյունահանման ժամանակ միշտ ընտրվում է ամենացածր հաճախականությամբ ծառը։

Հաջորդը, դուք պետք է ցիկլային կերպով կատարեք հետևյալը.

  1. Առբերեք երկու ծառ առաջնահերթ հերթից և դարձրեք դրանք նոր հանգույցի զավակներ (նոր ստեղծված հանգույց առանց տառի): Նոր հանգույցի հաճախականությունը հավասար է երկու սերունդ ծառերի հաճախականությունների գումարին։
  2. Այս հանգույցի համար ստեղծեք այս հանգույցում արմատավորված ծառ: Տեղադրեք այս ծառը կրկին առաջնահերթ հերթի մեջ: (Քանի որ ծառը նոր հաճախականություն ունի, ամենայն հավանականությամբ այն հերթում նոր տեղ կհայտնվի)
  3. Շարունակեք 1-ին և 2-րդ քայլերը, մինչև հերթում մնա մեկ ծառ՝ Հաֆմանի ծառը

Դիտարկենք այս ալգորիթմը s1 տողում.

Տվյալների սեղմում Huffman ալգորիթմի միջոցով

Այստեղ «lf» (linefeed) նշանը նշանակում է նոր տող, «sp» (տարածությունը) բացատ է:

Ի՞նչ է հաջորդը:

Մենք ստացանք Հաֆմանի ծառը: ԼԱՎ. Եվ ինչ անել դրա հետ: Նրանք դա անվճար չեն վերցնի, և այնուհետև պետք է հետևել բոլոր հնարավոր ուղիներին` արմատից մինչև ծառի տերևները: Մենք համաձայն ենք պիտակավորել եզրը 0, եթե այն տանում է դեպի ձախ, և 1, եթե այն տանում է դեպի աջը: Խստորեն ասած, այս նշումներում նիշերի կոդը ծառի արմատից դեպի այս նույն նիշը պարունակող տերևն է:

Տվյալների սեղմում Huffman ալգորիթմի միջոցով

Այսպիսով, ստացվեց ծածկագրերի աղյուսակը. Նկատի ունեցեք, որ եթե հաշվի առնենք այս աղյուսակը, կարող ենք եզրակացնել յուրաքանչյուր նիշի «քաշի» մասին՝ սա նրա կոդի երկարությունն է։ Այնուհետև, սեղմված ձևով, աղբյուրի ֆայլը կկշռի. . Սկզբում այն ​​կշռում էր 2 բիթ: Հետևաբար, մենք այն կրճատեցինք 3/2 = 4 անգամ: Բայց սա ուտոպիա է։ Նման հարաբերակցություն դժվար թե ստացվի։ Ինչո՞ւ։ Սա կքննարկվի մի փոքր ուշ:

Վերծանում

Դե, երևի թե ամենապարզ բանը մնում է վերծանումը։ Կարծում եմ, ձեզնից շատերը գուշակել են, որ անհնար է պարզապես սեղմված ֆայլ ստեղծել առանց որևէ ակնարկի այն մասին, թե ինչպես է այն կոդավորվել. մենք չենք կարողանա այն վերծանել: Այո, այո, ինձ համար դժվար էր դա գիտակցել, բայց ես պետք է ստեղծեմ տեքստային ֆայլ table.txt սեղմման աղյուսակով.

01110
 00
A010
E1111
I110
S10
T0110
U01111
Y1110

Աղյուսակի մուտքագրում «նիշ» «նիշերի կոդ» ձևով: Ինչու՞ է 01110-ն առանց խորհրդանիշի: Իրականում, դա սիմվոլով է, պարզապես java գործիքները, որոնք ես օգտագործում եմ ֆայլ դուրս բերելիս, նոր տողի նիշը` 'n'-ը վերածվում է նոր տողի (անկախ նրանից, թե որքան հիմար է դա հնչում): Հետևաբար, վերևի դատարկ տողը 01110 կոդի նիշն է: 00 կոդի համար նիշը տողի սկզբում բացատ է: Անմիջապես պետք է ասեմ, որ սեղանի պահպանման այս մեթոդը կարող է հավակնել, որ ամենաիռացիոնալն է մեր խանի գործակցի համար։ Բայց դա հեշտ է հասկանալ և իրականացնել: Ես ուրախ կլինեմ լսել ձեր առաջարկությունները օպտիմալացման վերաբերյալ մեկնաբանություններում:

Այս աղյուսակով այն շատ հեշտ է վերծանել։ Հիշենք, թե ինչ կանոնով ենք առաջնորդվել կոդավորումը ստեղծելիս.

Ոչ մի ծածկագիր չպետք է լինի մեկ այլ ծածկագրի նախածանց

Այստեղ է, որ այն դյուրացնող դեր է խաղում: Մենք կարդում ենք հաջորդականորեն բիթ առ բիթ, և հենց որ ստացված d տողը, որը բաղկացած է ընթերցված բիթերից, համընկնում է նիշի նիշին համապատասխան կոդավորման հետ, անմիջապես իմանում ենք, որ նիշի նիշը (և միայն այն) կոդավորված է։ Այնուհետև մենք գրում ենք նիշ վերծանման տողի վրա (վերծանված հաղորդագրությունը պարունակող տողը), զրոյացնում ենք d տողը և հետագայում կարդում ենք կոդավորված ֆայլը:

Իրականացման

Ժամանակն է նվաստացնել իմ կոդը՝ արխիվ գրելով։ Եկեք այն անվանենք կոմպրեսոր:

Վերսկսել. Առաջին հերթին մենք գրում ենք Node դասը.

public class Node {
    private int frequence;//частота
    private char letter;//буква
    private Node leftChild;//левый потомок
    private Node rightChild;//правый потомок

   

    public Node(char letter, int frequence) { //собственно, конструктор
        this.letter = letter;
        this.frequence = frequence;
    }

    public Node() {}//перегрузка конструтора для безымянных узлов(см. выше в разделе о построении дерева Хаффмана)
    public void addChild(Node newNode) {//добавить потомка
        if (leftChild == null)//если левый пустой=> правый тоже=> добавляем в левый
            leftChild = newNode;
        else {
            if (leftChild.getFrequence() <= newNode.getFrequence()) //в общем, левым потомком
                rightChild = newNode;//станет тот, у кого меньше частота
            else {
                rightChild = leftChild;
                leftChild = newNode;
            }
        }

        frequence += newNode.getFrequence();//итоговая частота
    }

    public Node getLeftChild() {
        return leftChild;
    }

    public Node getRightChild() {
        return rightChild;
    }

    public int getFrequence() {
        return frequence;
    }

    public char getLetter() {
        return letter;
    }

    public boolean isLeaf() {//проверка на лист
        return leftChild == null && rightChild == null;
    }
}

Այժմ ծառը.

class BinaryTree {
    private Node root;

    public BinaryTree() {
        root = new Node();
    }

    public BinaryTree(Node root) {
        this.root = root;
    }

    public int getFrequence() {
        return root.getFrequence();
    }

    public Node getRoot() {
        return root;
    }
}

Առաջնահերթ հերթ.

import java.util.ArrayList;//да-да, очередь будет на базе списка

class PriorityQueue {
    private ArrayList<BinaryTree> data;//список очереди
    private int nElems;//кол-во элементов в очереди

    public PriorityQueue() {
        data = new ArrayList<BinaryTree>();
        nElems = 0;
    }

    public void insert(BinaryTree newTree) {//вставка
        if (nElems == 0)
            data.add(newTree);
        else {
            for (int i = 0; i < nElems; i++) {
                if (data.get(i).getFrequence() > newTree.getFrequence()) {//если частота вставляемого дерева меньше 
                    data.add(i, newTree);//чем част. текущего, то cдвигаем все деревья на позициях справа на 1 ячейку                   
                    break;//затем ставим новое дерево на позицию текущего
                }
                if (i == nElems - 1) 
                    data.add(newTree);
            }
        }
        nElems++;//увеличиваем кол-во элементов на 1
    }

    public BinaryTree remove() {//удаление из очереди
        BinaryTree tmp = data.get(0);//копируем удаляемый элемент
        data.remove(0);//собственно, удаляем
        nElems--;//уменьшаем кол-во элементов на 1
        return tmp;//возвращаем удаленный элемент(элемент с наименьшей частотой)
    }
}

Դասարանը, որը ստեղծում է Huffman ծառը.

public class HuffmanTree {
    private final byte ENCODING_TABLE_SIZE = 127;//длина кодировочной таблицы
    private String myString;//сообщение
    private BinaryTree huffmanTree;//дерево Хаффмана
    private int[] freqArray;//частотная таблица
    private String[] encodingArray;//кодировочная таблица


    //----------------constructor----------------------
    public HuffmanTree(String newString) {
        myString = newString;

        freqArray = new int[ENCODING_TABLE_SIZE];
        fillFrequenceArray();

        huffmanTree = getHuffmanTree();

        encodingArray = new String[ENCODING_TABLE_SIZE];
        fillEncodingArray(huffmanTree.getRoot(), "", "");
    }

    //--------------------frequence array------------------------
    private void fillFrequenceArray() {
        for (int i = 0; i < myString.length(); i++) {
            freqArray[(int)myString.charAt(i)]++;
        }
    }

    public int[] getFrequenceArray() {
        return freqArray;
    }

    //------------------------huffman tree creation------------------
    private BinaryTree getHuffmanTree() {
        PriorityQueue pq = new PriorityQueue();
        //алгоритм описан выше
        for (int i = 0; i < ENCODING_TABLE_SIZE; i++) {
            if (freqArray[i] != 0) {//если символ существует в строке
                Node newNode = new Node((char) i, freqArray[i]);//то создать для него Node
                BinaryTree newTree = new BinaryTree(newNode);//а для Node создать BinaryTree
                pq.insert(newTree);//вставить в очередь
            }
        }

        while (true) {
            BinaryTree tree1 = pq.remove();//извлечь из очереди первое дерево.

            try {
                BinaryTree tree2 = pq.remove();//извлечь из очереди второе дерево

                Node newNode = new Node();//создать новый Node
                newNode.addChild(tree1.getRoot());//сделать его потомками два извлеченных дерева
                newNode.addChild(tree2.getRoot());

                pq.insert(new BinaryTree(newNode);
            } catch (IndexOutOfBoundsException e) {//осталось одно дерево в очереди
                return tree1;
            }
        }
    }

    public BinaryTree getTree() {
        return huffmanTree;
    }

    //-------------------encoding array------------------
    void fillEncodingArray(Node node, String codeBefore, String direction) {//заполнить кодировочную таблицу
        if (node.isLeaf()) {
            encodingArray[(int)node.getLetter()] = codeBefore + direction;
        } else {
            fillEncodingArray(node.getLeftChild(), codeBefore + direction, "0");
            fillEncodingArray(node.getRightChild(), codeBefore + direction, "1");
        }
    }

    String[] getEncodingArray() {
        return encodingArray;
    }

    public void displayEncodingArray() {//для отладки
        fillEncodingArray(huffmanTree.getRoot(), "", "");

        System.out.println("======================Encoding table====================");
        for (int i = 0; i < ENCODING_TABLE_SIZE; i++) {
            if (freqArray[i] != 0) {
                System.out.print((char)i + " ");
                System.out.println(encodingArray[i]);
            }
        }
        System.out.println("========================================================");
    }
    //-----------------------------------------------------
    String getOriginalString() {
        return myString;
    }
}

Դաս, որը պարունակում է կոդավորում/վերծանում.

public class HuffmanOperator {
    private final byte ENCODING_TABLE_SIZE = 127;//длина таблицы
    private HuffmanTree mainHuffmanTree;//дерево Хаффмана (используется только для сжатия)
    private String myString;//исходное сообщение
    private int[] freqArray;//частотаная таблица
    private String[] encodingArray;//кодировочная таблица
    private double ratio;//коэффициент сжатия 


    public HuffmanOperator(HuffmanTree MainHuffmanTree) {//for compress
        this.mainHuffmanTree = MainHuffmanTree;

        myString = mainHuffmanTree.getOriginalString();

        encodingArray = mainHuffmanTree.getEncodingArray();

        freqArray = mainHuffmanTree.getFrequenceArray();
    }

    public HuffmanOperator() {}//for extract;

    //---------------------------------------compression-----------------------------------------------------------
    private String getCompressedString() {
        String compressed = "";
        String intermidiate = "";//промежуточная строка(без добавочных нулей)
        //System.out.println("=============================Compression=======================");
        //displayEncodingArray();
        for (int i = 0; i < myString.length(); i++) {
            intermidiate += encodingArray[myString.charAt(i)];
        }
        //Мы не можем писать бит в файл. Поэтому нужно сделать длину сообщения кратной 8=>
        //нужно добавить нули в конец(можно 1, нет разницы)
        byte counter = 0;//количество добавленных в конец нулей (байта в полне хватит: 0<=counter<8<127)
        for (int length = intermidiate.length(), delta = 8 - length % 8; 
        		counter < delta ; counter++) {//delta - количество добавленных нулей
            intermidiate += "0";
        }
        
        //склеить кол-во добавочных нулей в бинарном предаствлении и промежуточную строку 
        compressed = String.format("%8s", Integer.toBinaryString(counter & 0xff)).replace(" ", "0") + intermidiate;
        		
        //идеализированный коэффициент
        setCompressionRatio();
        //System.out.println("===============================================================");
        return compressed;
    }
    
    private void setCompressionRatio() {//посчитать идеализированный коэффициент 
        double sumA = 0, sumB = 0;//A-the original sum
        for (int i = 0; i < ENCODING_TABLE_SIZE; i++) {
            if (freqArray[i] != 0) {
                sumA += 8 * freqArray[i];
                sumB += encodingArray[i].length() * freqArray[i];
            }
        }
        ratio = sumA / sumB;
    }

    public byte[] getBytedMsg() {//final compression
        StringBuilder compressedString = new StringBuilder(getCompressedString());
        byte[] compressedBytes = new byte[compressedString.length() / 8];
        for (int i = 0; i < compressedBytes.length; i++) {
                compressedBytes[i] = (byte) Integer.parseInt(compressedString.substring(i * 8, (i + 1) * 8), 2);
        }
        return compressedBytes;
    }
    //---------------------------------------end of compression----------------------------------------------------------------
    //------------------------------------------------------------extract-----------------------------------------------------
    public String extract(String compressed, String[] newEncodingArray) {
        String decompressed = "";
        String current = "";
        String delta = "";
        encodingArray = newEncodingArray;
        
        //displayEncodingArray();
        //получить кол-во вставленных нулей
        for (int i = 0; i < 8; i++) 
        	delta += compressed.charAt(i);
        int ADDED_ZEROES = Integer.parseInt(delta, 2);
       
        for (int i = 8, l = compressed.length() - ADDED_ZEROES; i < l; i++) {
            //i = 8, т.к. первым байтом у нас идет кол-во вставленных нулей
            current += compressed.charAt(i);
            for (int j = 0; j < ENCODING_TABLE_SIZE; j++) {
                if (current.equals(encodingArray[j])) {//если совпало
                    decompressed += (char)j;//то добавляем элемент
                    current = "";//и обнуляем текущую строку
                }
            }
        }

        return decompressed;
    }

    public String getEncodingTable() {
        String enc = "";
    	for (int i = 0; i < encodingArray.length; i++) {
        	if (freqArray[i] != 0) 
        		enc += (char)i + encodingArray[i] + 'n';
        }
    	return enc;
    }

    public double getCompressionRatio() {
        return ratio;
    }


    public void displayEncodingArray() {//для отладки
        System.out.println("======================Encoding table====================");
        for (int i = 0; i < ENCODING_TABLE_SIZE; i++) {
            //if (freqArray[i] != 0) {
                System.out.print((char)i + " ");
                System.out.println(encodingArray[i]);
            //}
        }
        System.out.println("========================================================");
    }
    }

Դաս, որը հեշտացնում է ֆայլում գրելը.

import java.io.File;
import java.io.PrintWriter;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.Closeable;

public class FileOutputHelper implements Closeable {
    private File outputFile;
    private FileOutputStream fileOutputStream;

    public FileOutputHelper(File file) throws FileNotFoundException {
        outputFile = file;
        fileOutputStream = new FileOutputStream(outputFile);
    }

    public void writeByte(byte msg) throws IOException {
        fileOutputStream.write(msg);
    }

    public void writeBytes(byte[] msg) throws IOException {
        fileOutputStream.write(msg);
    }

    public void writeString(String msg) {
    	try (PrintWriter pw = new PrintWriter(outputFile)) {
    		pw.write(msg);
    	} catch (FileNotFoundException e) {
    		System.out.println("Неверный путь, или такого файла не существует!");
    	}
    }

    @Override
    public void close() throws IOException {
        fileOutputStream.close();
    }

    public void finalize() throws IOException {
        close();
    }
}

Դաս, որը հեշտացնում է ֆայլից կարդալը.

import java.io.FileInputStream;
import java.io.EOFException;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.Closeable;
import java.io.File;
import java.io.IOException;

public class FileInputHelper implements Closeable {
	private FileInputStream fileInputStream;
	private BufferedReader fileBufferedReader;
	
	public FileInputHelper(File file) throws IOException {
		fileInputStream = new FileInputStream(file);
		fileBufferedReader = new BufferedReader(new InputStreamReader(fileInputStream));
	}
	
	
    public byte readByte() throws IOException {
    	int cur = fileInputStream.read();
    	if (cur == -1)//если закончился файл
    		throw new EOFException();
    	return (byte)cur;
    }
    
    public String readLine() throws IOException {
    	return fileBufferedReader.readLine();
    }
    
    @Override
    public void close() throws IOException{
    	fileInputStream.close();
    }
}

Դե, և հիմնական դասը.

import java.io.File;
import java.nio.charset.MalformedInputException;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.NoSuchFileException;
import java.nio.file.Paths;
import java.util.List;
import java.io.EOFException;
public class Main {
	private static final byte ENCODING_TABLE_SIZE = 127;
	
    public static void main(String[] args) throws IOException {
        try {//указываем инструкцию с помощью аргументов командной строки
            if (args[0].equals("--compress") || args[0].equals("-c"))
                compress(args[1]);
            else if ((args[0].equals("--extract") || args[0].equals("-x"))
            		&& (args[2].equals("--table") || args[2].equals("-t"))) {
            	extract(args[1], args[3]);
            }
            else
                throw new IllegalArgumentException();
        } catch (ArrayIndexOutOfBoundsException | IllegalArgumentException e) {
            System.out.println("Неверный формат ввода аргументов ");
            System.out.println("Читайте Readme.txt");
            e.printStackTrace();
        }
    }

	public static void compress(String stringPath) throws IOException {
        List<String> stringList;
        File inputFile = new File(stringPath);
        String s = "";
        File compressedFile, table;
        
        try {
            stringList = Files.readAllLines(Paths.get(inputFile.getAbsolutePath()));
        } catch (NoSuchFileException e) {
            System.out.println("Неверный путь, или такого файла не существует!");
            return;
        } catch (MalformedInputException e) {
        	System.out.println("Текущая кодировка файла не поддерживается");
        	return;
        }

        for (String item : stringList) {
            s += item;
            s += 'n';
        }

        HuffmanOperator operator = new HuffmanOperator(new HuffmanTree(s));

        compressedFile = new File(inputFile.getAbsolutePath() + ".cpr");
        compressedFile.createNewFile();
        try (FileOutputHelper fo = new FileOutputHelper(compressedFile)) {
        	fo.writeBytes(operator.getBytedMsg());
        }
        //create file with encoding table:
        
        table = new File(inputFile.getAbsolutePath() + ".table.txt");
        table.createNewFile();
        try (FileOutputHelper fo = new FileOutputHelper(table)) {
        	fo.writeString(operator.getEncodingTable());
        }
        
        System.out.println("Путь к сжатому файлу: " + compressedFile.getAbsolutePath());
        System.out.println("Путь к кодировочной таблице " + table.getAbsolutePath());
        System.out.println("Без таблицы файл будет невозможно извлечь!");
        
        double idealRatio = Math.round(operator.getCompressionRatio() * 100) / (double) 100;//идеализированный коэффициент
        double realRatio = Math.round((double) inputFile.length() 
        		/ ((double) compressedFile.length() + (double) table.length()) * 100) / (double)100;//настоящий коэффициент
        
        System.out.println("Идеализированный коэффициент сжатия равен " + idealRatio);
        System.out.println("Коэффициент сжатия с учетом кодировочной таблицы " + realRatio);
    }

    public static void extract(String filePath, String tablePath) throws FileNotFoundException, IOException {
        HuffmanOperator operator = new HuffmanOperator();
        File compressedFile = new File(filePath),
        	 tableFile = new File(tablePath),
        	 extractedFile = new File(filePath + ".xtr");
        String compressed = "";
        String[] encodingArray = new String[ENCODING_TABLE_SIZE];
        //read compressed file
        //!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!check here:
        try (FileInputHelper fi = new FileInputHelper(compressedFile)) {
        	byte b;
        	while (true) {
        		b = fi.readByte();//method returns EOFException
        		compressed += String.format("%8s", Integer.toBinaryString(b & 0xff)).replace(" ", "0");
        	}
        } catch (EOFException e) {
        	
        }
        
        //--------------------
        
        //read encoding table:
        try (FileInputHelper fi = new FileInputHelper(tableFile)) {
        	fi.readLine();//skip first empty string
        	encodingArray[(byte)'n'] = fi.readLine();//read code for 'n'
        	while (true) {
        		String s = fi.readLine();
        		if (s == null)
        			throw new EOFException();
        		encodingArray[(byte)s.charAt(0)] = s.substring(1, s.length());        		
        	}
        } catch (EOFException ignore) {}
        
        extractedFile.createNewFile();
        //extract:
		try (FileOutputHelper fo = new FileOutputHelper(extractedFile)) {
			fo.writeString(operator.extract(compressed, encodingArray));
		}
		
		System.out.println("Путь к распакованному файлу " + extractedFile.getAbsolutePath());
    }
}

Դուք պետք է ինքներդ գրեք ֆայլը readme.txt հրահանգներով 🙂

Ամփոփում

Կարծում եմ, դա այն ամենն է, ինչ ուզում էի ասել: Եթե ​​ինչ-որ բան ունեք ասելու կոդի, ալգորիթմի, ընդհանրապես ցանկացած օպտիմալացման բարելավումների իմ անկարողության մասին, ապա ազատ զգալ գրեք։ Եթե ​​ինչ-որ բան չեմ բացատրել, խնդրում եմ նաև գրեք։ Ես կցանկանայի լսել ձեզ մեկնաբանություններում:

PS

Այո, այո, ես դեռ այստեղ եմ, քանի որ չեմ մոռացել գործակցի մասին։ S1 տողի համար կոդավորման աղյուսակը կշռում է 48 բայթ, ինչը շատ ավելին է, քան սկզբնական ֆայլը, և նրանք չեն մոռացել լրացուցիչ զրոների մասին (ավելացված զրոների թիվը 7 է) => սեղմման գործակիցը կլինի մեկից պակաս՝ 176: /(65 + 48*8 + 7) = 0.38: Եթե ​​դուք նույնպես նկատել եք սա, ապա պարզապես ոչ թե երեսին, դուք արդեն ավարտված եք: Այո, այս իրականացումը չափազանց անարդյունավետ կլինի փոքր ֆայլերի համար: Բայց ինչ է տեղի ունենում մեծ ֆայլերի հետ: Ֆայլի չափերը շատ ավելի մեծ են, քան կոդավորման աղյուսակի չափը: Ահա, որտեղ ալգորիթմն աշխատում է այնպես, ինչպես պետք է: Օրինակ, համար Ֆաուստի մենախոսությունը արխիվատորը տալիս է իրական (ոչ իդեալականացված) գործակից, որը հավասար է 1.46-ի` գրեթե մեկուկես անգամ: Եվ այո, ֆայլը պետք է անգլերենով լիներ։

Source: www.habr.com

Добавить комментарий