1.1. Extraction from Google Sheets

This article explains how to extract tables from Google Sheets to AWS S3 with Apache Airflow. We start with a simple approach for small tables, then scale up as your data grows. Along the way, we cover the 10M cells limit, secrets/configuration, code examples, and a design that stays robust as requirements evolve.

Overview 

Many teams keep small-to-medium datasets in Google Sheets and need a dependable way to land that data in S3 for downstream analytics (dbt, Spark, Trino, Athena). This article focuses on a low-friction path to operationalize that flow with Airflow—starting simple for quick wins and growing into a robust pattern as volume and complexity increase. You’ll see how to schedule secure extractions, choose the right file format, and evolve the design without rework as your needs scale.

Design overview 

Two complementary approaches:

Small tables: use GoogleApiToS3Operator (Sheets API values.get) → nested JSON (fastest to set up).
Growing tables: use a custom operator to write JSONL (one JSON row per line) → easier querying and scaling.

Contract (inputs/outputs)

Inputs:
- Google Spreadsheet ID, worksheet name, and range (first row must contain headers).
- Airflow connections for Google and AWS.
- S3 bucket and destination path.
Outputs:
- Files in S3 (JSON or JSONL), versioned by date if desired.
Success criteria:
- All expected rows are extracted.
- Files are written to the configured S3 path and can be queried.
Error modes:
- Missing/invalid credentials (GCP/AWS), incorrect range or sheet name, API quota errors.

Limitations and implications 

Google Sheets hard limit: ~10 million cells per spreadsheet.
- As tables grow (columns × rows), you may hit this cap.
- Mitigations: split by time (multiple worksheets/spreadsheets) or serialize columns into a single cell per row (see below).
The Sheets API values.get returns a nested values array that is less convenient to query directly.

Setup and secrets 

Install Airflow providers:
- apache-airflow
- apache-airflow-providers-google
- apache-airflow-providers-amazon
Create Airflow connections:
- google_cloud_default: service account with Sheets API enabled (keyfile JSON or secret backend).
- aws_default: IAM with write access to the S3 bucket.
Prepare configuration:
- Spreadsheet ID, worksheet name(s), range (e.g., A:Z or A1:Z10000 including headers).
- S3 bucket and prefix (e.g., s3://your-bucket/raw/google_sheets/<sheet>/).

Approach A — Simple JSON (best for small tables)

This uses GoogleApiToS3Operator to call spreadsheets.values.get and store the response JSON in S3.

"""
Example Airflow DAG: extract a Google Sheets worksheet range to S3 using
GoogleApiToS3Operator (row-major JSON from Sheets API).

Generalized (no project-specific names). Requires Airflow + providers installed:
  - apache-airflow
  - apache-airflow-providers-google
  - apache-airflow-providers-amazon
"""
from __future__ import annotations

from airflow import DAG
from airflow.operators.empty import EmptyOperator
from airflow.providers.amazon.aws.transfers.google_api_to_s3 import (
    GoogleApiToS3Operator,
)
import pendulum


with DAG(
    dag_id="example_gsheet_to_s3_basic",
    description="Copy a Google Sheets range to S3 as JSON using GoogleApiToS3Operator",
    schedule="0 8-15 * * 1,2",  # Hourly Mon-Tue 08:00-15:00 UTC
    start_date=pendulum.datetime(2025, 1, 1, tz="UTC"),
    catchup=False,
    tags=["google-sheets", "s3", "extraction"],
    default_args={"retries": 2},
) as dag:
    start = EmptyOperator(task_id="start")
    end = EmptyOperator(task_id="end")

    copy_gsheet_to_s3 = GoogleApiToS3Operator(
        task_id="copy_worksheet_to_s3",
        gcp_conn_id="google_cloud_default",  # Configure in Airflow
        google_api_service_name="sheets",
        google_api_service_version="v4",
        google_api_endpoint_path="sheets.spreadsheets.values.get",
        google_api_endpoint_params={
            "spreadsheetId": "<YOUR_SPREADSHEET_ID>",
            "range": "<WORKSHEET_NAME>!A:Z",  # Includes headers in first row
        },
        aws_conn_id="aws_default",
        s3_destination_key="s3://<YOUR_BUCKET>/raw/google_sheets/<WORKSHEET_NAME>/data.json",
        s3_overwrite=True,
    )

    start >> copy_gsheet_to_s3 >> end

Code walkthrough

google_api_endpoint_params supplies spreadsheetId and range.
Output is a JSON object containing range, majorDimension, and values (list-of-lists).
Suitable for small tables and quick wins; you can normalize later in SQL/ETL.

Loading the nested JSON

CREATE EXTERNAL TABLE IF NOT EXISTS raw.google_sheet_values (
        range STRING,
        majorDimension STRING,
        values ARRAY<ARRAY<STRING>>
)
STORED AS JSON
LOCATION 's3://your-bucket/raw/google_sheets/worksheet_name/';

Trade-offs

Pros: minimal setup, leverages built-in operator.
Cons: nested format is harder to query; not ideal as data grows.

Approach B — JSONL per row (better for growth)

We switch to row-wise JSON Lines so each row is a separate JSON object (easier for dbt/Spark/Trino).

Operator (generic)

"""
Generic Airflow operator to extract a Google Sheets range and write JSONL to S3.

Each data row becomes a JSON object (one per line). Optionally, serialize all
columns into a single payload string to reduce Google Sheets cell usage.
"""
from __future__ import annotations

import json
from datetime import datetime
from typing import Any, List, Optional

from airflow.models.baseoperator import BaseOperator
from airflow.providers.amazon.aws.hooks.s3 import S3Hook
from airflow.providers.google.suite.hooks.sheets import GSheetsHook


class GSheetToS3JsonlOperator(BaseOperator):
    """
    Fetch data from Google Sheets, convert each row to JSONL, and upload to S3.

    Parameters:
        gcp_conn_id: Airflow connection ID for Google (e.g., "google_cloud_default").
        aws_conn_id: Airflow connection ID for AWS (e.g., "aws_default").
        spreadsheet_id: Google Spreadsheet ID.
        worksheet_name: Sheet/tab name.
        worksheet_range: Cell range, e.g., "A:Z" or "A1:Z9999". Must include headers in first row.
        s3_bucket: Destination S3 bucket.
        s3_key: Destination S3 key (object path). Can include templates like {{ ds }}.
        serialize_columns: If True, serialize all columns into a single string field.
        serialization_separator: Separator for column serialization when serialize_columns=True.
        payload_field: Field name to store serialized payload.
        extras: Optional dict to include extra fields in each JSON line.
    """

    template_fields = ("s3_key", "worksheet_name", "worksheet_range")

    def __init__(
        self,
        *,
        gcp_conn_id: str,
        aws_conn_id: str,
        spreadsheet_id: str,
        worksheet_name: str,
        worksheet_range: str,
        s3_bucket: str,
        s3_key: str,
        serialize_columns: bool = False,
        serialization_separator: str = "|",
        payload_field: str = "payload",
        extras: Optional[dict] = None,
        **kwargs,
    ) -> None:
        super().__init__(**kwargs)
        self.gcp_conn_id = gcp_conn_id
        self.aws_conn_id = aws_conn_id
        self.spreadsheet_id = spreadsheet_id
        self.worksheet_name = worksheet_name
        self.worksheet_range = worksheet_range
        self.s3_bucket = s3_bucket
        self.s3_key = s3_key
        self.serialize_columns = serialize_columns
        self.serialization_separator = serialization_separator
        self.payload_field = payload_field
        self.extras = extras or {}

    def _serialize_row(self, headers: List[str], row: List[Optional[str]]) -> dict:
        # pad row to headers length
        padded = list(row) + [None] * (len(headers) - len(row))
        if self.serialize_columns:
            # Join columns into a single string. Replace separators in values to avoid collisions.
            safe_values = [
                "" if v is None else str(v).replace(self.serialization_separator, f"\\{self.serialization_separator}")
                for v in padded
            ]
            return {self.payload_field: self.serialization_separator.join(safe_values)}
        else:
            return dict(zip(headers, padded))

    def execute(self, context: Any):
        logical_date = context["ds"]
        self.log.info(
            "Reading spreadsheet_id=%s sheet=%s range=%s",
            self.spreadsheet_id,
            self.worksheet_name,
            self.worksheet_range,
        )

        hook = GSheetsHook(gcp_conn_id=self.gcp_conn_id)
        values = hook.get_values(
            spreadsheet_id=self.spreadsheet_id, range_=f"{self.worksheet_name}!{self.worksheet_range}"
        )

        if not values or len(values) < 2:
            self.log.warning("No data found in worksheet '%s'. Skipping.", self.worksheet_name)
            return None

        raw_headers = values[0]
        headers = [h.strip().replace(" ", "_").lower() for h in raw_headers]
        rows = values[1:]

        date_of_transfer = datetime.fromisoformat(logical_date).strftime("%Y-%m-%d")
        file_name = f"{self.worksheet_name}.jsonl"

        json_lines: List[str] = []
        for row in rows:
            obj = self._serialize_row(headers, row)
            obj.update(
                {
                    "worksheet": self.worksheet_name,
                    "range": self.worksheet_range,
                    "file_name": file_name,
                    "date_of_file_transfer": date_of_transfer,
                }
            )
            if self.extras:
                obj.update(self.extras)
            json_lines.append(json.dumps(obj, ensure_ascii=False))

        output_data = "\n".join(json_lines)

        s3_hook = S3Hook(aws_conn_id=self.aws_conn_id)
        s3_hook.load_string(
            string_data=output_data, key=self.s3_key, bucket_name=self.s3_bucket, replace=True
        )

        self.log.info(
            "Uploaded %d rows to s3://%s/%s", len(rows), self.s3_bucket, self.s3_key
        )
        return f"s3://{self.s3_bucket}/{self.s3_key}"

Example DAG

"""
Example Airflow DAG: extract a Google Sheets worksheet range to S3 as JSONL
using a custom operator that normalizes row-wise and adds metadata.

Generalized (no project-specific names). Requires Airflow + providers installed.
"""
from __future__ import annotations

from airflow import DAG
from airflow.operators.empty import EmptyOperator
import pendulum

# Adjust import to your Airflow project structure (e.g., plugins/operators)
try:
    from operators.gsheet_to_s3_jsonl import GSheetToS3JsonlOperator  # type: ignore
except Exception:  # pragma: no cover - example import fallback
    GSheetToS3JsonlOperator = None  # type: ignore


with DAG(
    dag_id="example_gsheet_to_s3_jsonl",
    description="Copy a Google Sheets range to S3 as JSONL (one object per row)",
    schedule="0 3 * * *",  # Daily 03:00 UTC
    start_date=pendulum.datetime(2025, 1, 1, tz="UTC"),
    catchup=False,
    tags=["google-sheets", "s3", "jsonl"],
    default_args={"retries": 2},
) as dag:
    start = EmptyOperator(task_id="start")
    end = EmptyOperator(task_id="end")

    if GSheetToS3JsonlOperator is None:
        raise ImportError(
            "GSheetToS3JsonlOperator not importable. Place operators/gsheet_to_s3_jsonl.py in your Airflow project and adjust the import."
        )

    copy_gsheet_to_s3 = GSheetToS3JsonlOperator(
        task_id="copy_worksheet_to_s3",
        gcp_conn_id="google_cloud_default",
        aws_conn_id="aws_default",
        spreadsheet_id="<YOUR_SPREADSHEET_ID>",
        worksheet_name="<WORKSHEET_NAME>",
        worksheet_range="A:Z",
        s3_bucket="<YOUR_BUCKET>",
        s3_key="raw/google_sheets/<WORKSHEET_NAME>/data_{{ ds_nodash }}.jsonl",
        # set serialize_columns=True to collapse all columns into one payload string
        serialize_columns=False,
        serialization_separator="|",
        payload_field="payload",
        extras={"source": "google_sheets"},
    )

    start >> copy_gsheet_to_s3 >> end

Code walkthrough

Reads headers and data via GSheetsHook; creates one JSON per row.
Adds metadata: worksheet, range, file_name, date_of_file_transfer.
Writes to S3 as .jsonl so downstream tools can process line-by-line.

Schema for JSONL

CREATE EXTERNAL TABLE IF NOT EXISTS raw.google_sheet_jsonl (
        -- your columns inferred from headers
        col1 STRING,
        col2 STRING,
        -- metadata
        worksheet STRING,
        range STRING,
        file_name STRING,
        date_of_file_transfer DATE
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
LOCATION 's3://your-bucket/raw/google_sheets/worksheet_name/';

Dealing with the 10M cells limit: column serialization 

If you are constrained by the Sheets cell limit, store all columns as a single serialized field per row in the sheet, and reconstruct downstream. The operator supports this via serialize_columns=True.

Example (conceptual):

copy_gsheet_to_s3 = GSheetToS3JsonlOperator(
        task_id="copy_worksheet_to_s3_serialized",
        gcp_conn_id="google_cloud_default",
        aws_conn_id="aws_default",
        spreadsheet_id="<YOUR_SPREADSHEET_ID>",
        worksheet_name="<WORKSHEET_NAME>",
        worksheet_range="A:Z",
        s3_bucket="<YOUR_BUCKET>",
        s3_key="raw/google_sheets/<WORKSHEET_NAME>/data_{{ ds_nodash }}.jsonl",
        serialize_columns=True,
        serialization_separator="|",   # escape handled in operator
        payload_field="payload",
)

Downstream, split payload by the chosen separator to reconstruct columns. This reduces sheet cell usage (one cell per row instead of many), at the cost of manual parsing later.

Scheduling, monitoring, and reliability 

Schedule aligns with the manual update window; use retries (2–4) and alerting on failure.
Version outputs (e.g., data_{{ ds_nodash }}.jsonl) for reproducibility.
Consider sensors if you depend on other upstream tasks.

Security and configuration 

Keep credentials in Airflow Connections or a secret backend (e.g., AWS Secrets Manager) — not in code.
Scope IAM minimally: S3 write-only where possible; Sheets read-only.
Limit spreadsheet access to service accounts used by Airflow.

Summary of trade-offs 

Simple JSON (values.get): fastest start; harder to query later.
JSONL per row: slightly more setup; far easier for downstream tools and scale.
Column serialization: mitigates Sheets limits; requires parsing in the lake.