dropped pycache files, renaming others

2023-08-02 14:51:47 -04:00 · 2023-08-02 14:51:47 -04:00 · 386cafe0dd
commit 386cafe0dd
parent 8765e3c428
11 changed files with 184 additions and 68 deletions
--- a/minerva/redshift.py
+++ b/minerva/redshift.py
@ -0,0 +1,114 @@
+import boto3
+import os
+import random
+import time
+import pyarrow as pa
+import pyarrow.dataset
+import pprint
+import datetime
+from minerva import parallel_map
+
+pp = pprint.PrettyPrinter(indent=4)
+
+class Redshift:
+    def __init__(self, profile, output, db=None, cluster=None):
+        self.session  = boto3.session.Session(profile_name=profile)
+        self.redshift = self.session.client("redshift-data")
+        self.output   = output
+        self.database = db
+        self.cluster  = cluster
+
+    def query(self, sql):
+        q = Query(self, sql)
+        q.run()
+        return q
+
+    def execute(self, sql):
+        e = Execute(self, sql)
+        e.run()
+        return e
+
+    def download(self, s3):
+        bucket = s3.split("/")[2]
+        file   = os.path.join(*s3.split("/")[3:])
+        tmp    = f"/tmp/{random.random()}.bin"
+        self.session.client('s3').download_file(bucket, file, tmp)
+
+        return tmp
+
+class Execute:
+    """
+    Execute will not return results, but will execute the SQL and return the final state.
+    Execute is meant to be used for DML statements such as CREATE DATABASE/TABLE
+    """
+    def __init__(self, handler, sql):
+        self.handler    = handler
+        self.redshift   = handler.redshift
+        self.sql        = sql
+        self.info_cache = None
+
+    def query(self):
+        return self.sql
+
+    def run(self):
+        resp  = self.redshift.execute_statement(Sql=self.query(),
+                                                Database=self.handler.database,
+                                                ClusterIdentifier=self.handler.cluster)
+        self.query_id = resp['Id']
+        return resp
+
+    def status(self):
+        return self.info()['Status']
+
+    def info(self):
+        res = self.redshift.describe_statement(Id=self.query_id)
+        self.info_cache = res
+        return self.info_cache
+
+    def finish(self):
+        while stat := self.status() in ['SUBMITTED', 'PICKED', 'STARTED']:
+            time.sleep(5)
+
+        return stat # finalized state
+
+
+class Query(Execute):
+    DATA_STYLE = 'parquet'
+
+    def query(self):
+        self.out = os.path.join(self.handler.output,
+                              str(random.random()))
+        query    = f"unload ({repr(self.sql)}) to {repr(self.out)} " + \
+                   f"iam_role default " + \
+                   f"format as {self.DATA_STYLE} " + \
+                   f"manifest"
+        return query
+
+    def manifest_files(self):
+        status = self.finish()
+
+        if status == "SUCCEEDED":
+            # Track the runtime
+            self.runtime = tiedot['UpdatedAt'] - tiedot['CreatedAt']
+
+            # Because we're using `UNLOAD`, we get a manifest of the files
+            # that make up our data.
+            manif = self.out + "manifest"
+            tmp   = self.handler.download(manif)
+            with open(tmp, "r") as f:
+                js = json.load(f)
+
+            # Filter empty strings
+            files = [e['url'].strip() for e in js['entries'] if e['url'].strip()]
+
+            return files
+        else:
+            return status # canceled or error
+
+    # TODO parallelize this
+    def results(self):
+        #local   = [self.handler.download(f) for f in self.manifest_files()]
+        local   = parallel_map(self.handler.download, self.manifest_files())
+        self.ds = pa.dataset.dataset(local)
+        return self.ds
+