Metadata-Version: 2.4
Name: gitlake
Version: 0.1.0
Summary: Framework para usar repositorios git como data-lake
Home-page: https://github.com/carloscorvaum/gitlake
Author: Carlos Corvaum
Author-email: Carlos Corvaum <carloscorvaum@icloud.com>
License: MIT
Keywords: data-lake,github,git,data,data-analytics,data-engineer,engenharia-de-dados,gitlake
Classifier: Development Status :: 3 - Alpha
Classifier: Intended Audience :: Developers
Classifier: Programming Language :: Python :: 3
Classifier: Programming Language :: Python :: 3.9
Classifier: Programming Language :: Python :: 3.10
Classifier: Programming Language :: Python :: 3.11
Classifier: Programming Language :: Python :: 3.12
Requires-Python: >=3.9
Description-Content-Type: text/markdown
Requires-Dist: requests>=2.30.0
Requires-Dist: pandas>=2.0.0
Requires-Dist: pyarrow>=21.0.0
Dynamic: author
Dynamic: home-page
Dynamic: requires-python

# 🐙 GitLake

> Um mini data-lake versionado, leve e open-source, usando apenas **GitHub + pandas + requests**

O **GitLake** é um framework simples e poderoso que permite salvar, versionar e gerenciar **coleções de dados** diretamente em repositórios do GitHub.

Ideal para projetos de dados, pipelines, protótipos de machine learning e experimentos que precisam de um **repositório remoto e versionado**, sem a complexidade de uma infraestrutura em nuvem.

---

## 🚀 Instalação

Via PyPI (em breve):

``bash
pip install gitlake
``

Ou instalando manualmente:

git clone https://github.com/carloscorvaum/gitlake.git
cd gitlake
pip install .

🧠 Funcionalidades principais
📁 Gerenciamento de coleções de DataFrames diretamente no GitHub
💾 Suporte a formatos: csv, json, parquet
✍️ Modos de escrita: overwrite, append
🕒 Controle de metadados: created_at, updated_at
🔐 Controle de versionamento Git
🗑️ Exclusão lógica e física de coleções
🔄 Totalmente baseado em GitHub como backend remoto



---

## 📦 Requisitos
Python 3.9+
pandas
requests
pyarrow
Instalados automaticamente via:

pip install gitlake


📁 Estrutura esperada
.
├── metadata/
│   └── collections_registry.json     # Registro de todas as coleções
└── data/
    └── minha_colecao/
        └── minha_colecao.csv         # Dados da coleção

🔐 Autenticação
Você precisa de um GitHub Personal Access Token (PAT) com permissão para ler e escrever no repositório desejado.

Gere um token aqui:
https://github.com/settings/tokens

Use esse token com segurança. Para repositórios privados, ele é obrigatório.


🧪 **Casos de uso

- Publicar datasets com versionamento
- Salvar resultados de ETLs diretamente no GitHub
- Criar um "data catalog" simples para seu time
- Compartilhar coleções de dados versionadas em repositórios abertos
