J'exécute quelques tests sur les formats de stockage disponibles avec Hive et j'utilise Parquet et ORC comme options principales. J'ai inclus ORC une fois avec la compression par défaut et une fois avec Snappy.
J'ai lu de nombreux documents qui déclarent que Parquet est meilleur en complexité temps / espace par rapport à ORC, mais mes tests sont opposés aux documents que j'ai parcourus.
Suit quelques détails de mes données.
Table A- Text File Format- 2.5GB
Table B - ORC - 652MB
Table C - ORC with Snappy - 802MB
Table D - Parquet - 1.9 GB
Le parquet était pire en ce qui concerne la compression de ma table.
Mes tests avec les tableaux ci-dessus ont donné les résultats suivants.
Opération de comptage de lignes
Text Format Cumulative CPU - 123.33 sec
Parquet Format Cumulative CPU - 204.92 sec
ORC Format Cumulative CPU - 119.99 sec
ORC with SNAPPY Cumulative CPU - 107.05 sec
Somme d'une opération de colonne
Text Format Cumulative CPU - 127.85 sec
Parquet Format Cumulative CPU - 255.2 sec
ORC Format Cumulative CPU - 120.48 sec
ORC with SNAPPY Cumulative CPU - 98.27 sec
Moyenne d'une opération de colonne
Text Format Cumulative CPU - 128.79 sec
Parquet Format Cumulative CPU - 211.73 sec
ORC Format Cumulative CPU - 165.5 sec
ORC with SNAPPY Cumulative CPU - 135.45 sec
Sélection de 4 colonnes dans une plage donnée à l'aide de la clause where
Text Format Cumulative CPU - 72.48 sec
Parquet Format Cumulative CPU - 136.4 sec
ORC Format Cumulative CPU - 96.63 sec
ORC with SNAPPY Cumulative CPU - 82.05 sec
Cela signifie-t-il que ORC est plus rapide que Parquet? Ou puis-je faire quelque chose pour que cela fonctionne mieux avec le temps de réponse des requêtes et le taux de compression?
Merci!