Metadata Generation¶

The make_metadata_from_data.py utility generates baseline CSVW-EO metadata from an existing dataset.

Purpose¶

The generator infers:

Important

Automatically generated metadata may leak sensitive information. Manual review is always required before publication.

python make_metadata_from_data.py \
  data.csv \
  --privacy_unit user_id

Four contribution levels are supported:

Level	Description
`table`	Table-level DP metadata only
`table_with_keys`	Table-level metadata with public keys
`column`	Per-column DP contribution metadata
`partition`	Fine-grained partition-level metadata

Higher level incurr more risk of disclosure. Always use the lowest metadata granularity sufficient for the use case.

python make_metadata_from_data.py \
  data.csv \
  --privacy_unit user_id \
  --default_contributions_level table

python make_metadata_from_data.py \
  data.csv \
  --privacy_unit user_id \
  --continuous_partitions '{"age":[0,18,30,50,100]}'

python make_metadata_from_data.py \
  data.csv \
  --privacy_unit user_id \
  --column_groups '[["age","income"]]'

python make_metadata_from_data.py \
  data.csv \
  --privacy_unit user_id \
  --with_dependencies True