csv-parser/csv__utility_8cpp_source.html

#include "csv_utility.hpp"

#include "data_frame.hpp"


namespace csv {


    CSV_INLINE std::unordered_map<std::string, DataType> csv_data_types(CSVReader& reader) {

        std::unordered_map<std::string, DataType> csv_dtypes;

        const auto col_names = reader.get_col_names();

        std::vector<std::unordered_map<DataType, size_t>> type_counts(col_names.size());

        constexpr size_t TYPE_CHUNK_SIZE = 5000;


        chunk_parallel_apply(reader, type_counts,

            [](DataFrame<>::column_type column, std::unordered_map<DataType, size_t>& counts) {

                for (size_t row_index = 0; row_index < column.size(); ++row_index) {

                    counts[internals::data_type(column.get_sv(row_index))]++;

                }

            },

            TYPE_CHUNK_SIZE

        );


        for (size_t i = 0; i < col_names.size(); i++) {

            auto& col = type_counts[i];

            auto& col_name = col_names[i];


            if (col[DataType::CSV_STRING])

                csv_dtypes[col_name] = DataType::CSV_STRING;

            else if (col[DataType::CSV_INT64])

                csv_dtypes[col_name] = DataType::CSV_INT64;

            else if (col[DataType::CSV_INT32])

                csv_dtypes[col_name] = DataType::CSV_INT32;

            else if (col[DataType::CSV_INT16])

                csv_dtypes[col_name] = DataType::CSV_INT16;

            else if (col[DataType::CSV_INT8])

                csv_dtypes[col_name] = DataType::CSV_INT8;

            else if (col[DataType::CSV_BOOL])

                csv_dtypes[col_name] = DataType::CSV_BOOL;

            else if (col[DataType::CSV_TIMESTAMP])

                csv_dtypes[col_name] = DataType::CSV_TIMESTAMP;

            else if (col[DataType::CSV_NULL])

                csv_dtypes[col_name] = DataType::CSV_NULL;

            else

                csv_dtypes[col_name] = DataType::CSV_DOUBLE;

        }


        return csv_dtypes;

    }


}

csv::CSVReader
Main class for parsing CSVs from files and in-memory sources.
Definition csv_reader.hpp:49

CSV_INLINE
#define CSV_INLINE
Helper macro which should be #defined as "inline" in the single header version.
Definition common.hpp:33

csv
The all encompassing namespace.
Definition basic_csv_parser_simd.hpp:51

csv::DataType::CSV_TIMESTAMP
@ CSV_TIMESTAMP
Timestamp value.

csv::DataType::CSV_INT64
@ CSV_INT64
64-bit integer

csv::DataType::CSV_DOUBLE
@ CSV_DOUBLE
Floating point value.

csv::DataType::CSV_BOOL
@ CSV_BOOL
Boolean value.

csv::DataType::CSV_NULL
@ CSV_NULL
Empty string.

csv::DataType::CSV_INT16
@ CSV_INT16
16-bit integer

csv::DataType::CSV_INT32
@ CSV_INT32
32-bit integer

csv::DataType::CSV_INT8
@ CSV_INT8
8-bit integer

csv::DataType::CSV_STRING
@ CSV_STRING
Non-scalar string.

csv::chunk_parallel_apply
void chunk_parallel_apply(CSVReader &reader, DataFrameExecutor &executor, std::vector< State > &states, Fn &&fn, size_t chunk_size=50000)
Apply a per-column batch function over a CSVReader using a reusable executor.
Definition csv_utility.hpp:139

csv::csv_data_types
std::unordered_map< std::string, DataType > csv_data_types(CSVReader &reader)
Infer SQL-friendly column data types from an existing CSVReader.
Definition csv_utility.cpp:5