其他
C++ implementaion of multiple compressing method, using template.
计划
- 完成一个C++实现各种常用文本压缩算法的库.
- 会尽可能的优化性能和减少占用空间。采用模板类template增强复用,如支持基于char和基于word的huffman,范式huffman算法(spporting both char and word based
- 强调实验的特性,会详细输出中间过程,如打印具体的huffan tree.
进展
``` 11.30 完成了英文文本基于分词的范式huffman完全无损的压缩解压缩。 对于24M的一个测试英文文本用普通的基于字节的压缩可压缩到13M, 而基于分词的压缩当前测试是9.5M,gzip默认选项压缩到7.6M 如果改进分词或者是对于更大的英文文本(这个测试文本中符号比较多稍微影响效果) 基于词的压缩能取得更好的效果。 下一步,改进分词,改进速度,尝试中文分词压缩,或者混合文本...
golden_huffman1.1 Table based canonical huff decoding is quick. allen:~/study/data_structure/golden-huffman/build/bin$ du -h 5big.log 116M 5big.log 1.Normal canonical huff decoding(char based) allen:~/study/data_structure/golden-huffman/build/bin$ time ./utest 5big.log.crs2 4
real 0m5.287s
user 0m2.500s
sys 0m2.572s
2.Table based canonical huff decoding(char based)
allen:~/study/data_structure/golden-huffman/build/bin$ time ./utest 5big.log.crs2 6
算法
压缩
实现
CImplementaionofHuffmanCanonicalH
uffmanandotherencodingmethod
常用文本
暂无评论