export_data commit #2

jruzekowicz · jruzekowicz · commit dd9ec1c9e486 · 2021-06-30T13:35:22.000-04:00
Testing:
The pipeline has been tested for multiple data sources stored within the tests/data file.
By testing multiple files, we have demonstracted that it will update and store the data within a
given file. This file however is still being overwritten as it is based on the uuid (within the filename).
Changing of the filename will be next.
Keys included within the export data:
jruzekow-32318s:e-mission-server jruzekow$ zgrep "key" export_5d5fc80b-c031-4e43-8d64-52fb29aefc94.gz  | sort | uniq
            "key": "analysis/cleaned_place",
            "key": "analysis/cleaned_section",
            "key": "analysis/cleaned_stop",
            "key": "analysis/cleaned_trip",
            "key": "analysis/confirmed_trip",
            "key": "analysis/inferred_section",
            "key": "analysis/recreated_location",
            "key": "background/filtered_location",
            "key": "background/location",
            "key": "background/motion_activity",
            "key": "inference/prediction",
            "key": "segmentation/raw_place",
            "key": "segmentation/raw_section",
            "key": "segmentation/raw_stop",
            "key": "segmentation/raw_trip",
            "key": "statemachine/transition",
            "key": "stats/pipeline_error",
            "key": "stats/pipeline_time",

These keys now account for the raw data and all data put together within the pipeline states.
diff --git a/bin/debug/extract_timeline_for_day_range_and_user.py b/bin/debug/extract_timeline_for_day_range_and_user.py
@@ -20,14 +20,13 @@
 import argparse
 
 import emission.core.wrapper.user as ecwu
-import emission.storage.timeseries.abstract_timeseries as esta
 import emission.storage.timeseries.timequery as estt
+import emission.storage.timeseries.abstract_timeseries as esta
 import emission.storage.decorations.user_queries as esdu
-import emission.storage.timeseries.cache_series as estcs
 # only needed to read the motion_activity
 # https://github.com/e-mission/e-mission-docs/issues/356#issuecomment-520630934
 import emission.net.usercache.abstract_usercache as enua
-
+import emission.storage.timeseries.cache_series as estcs
 import emission.export.export as eee
 
 def export_timeline(user_id, start_day_str, end_day_str, timezone, file_name):
@@ -39,14 +38,27 @@ def export_timeline(user_id, start_day_str, end_day_str, timezone, file_name):
     logging.debug("start_day_ts = %s (%s), end_day_ts = %s (%s)" % 
         (start_day_ts, arrow.get(start_day_ts).to(timezone),
          end_day_ts, arrow.get(end_day_ts).to(timezone)))
-
+    ts = esta.TimeSeries.get_time_series(user_id)
     loc_time_query = estt.TimeQuery("data.ts", start_day_ts, end_day_ts)
+    loc_entry_list = list(estcs.find_entries(user_id, key_list=None, time_query=loc_time_query))
     ma_time_query = estt.TimeQuery("metadata.write_ts", start_day_ts, end_day_ts)
     uc = enua.UserCache.getUserCache(user_id)
     ma_entry_list = uc.getMessage(["background/motion_activity"], ma_time_query)
     trip_time_query = estt.TimeQuery("data.start_ts", start_day_ts, end_day_ts)
+    trip_entry_list = list(ts.find_entries(key_list=None, time_query=trip_time_query))
     place_time_query = estt.TimeQuery("data.enter_ts", start_day_ts, end_day_ts)
-    eee.export(loc_time_query, trip_time_query, place_time_query, ma_entry_list, user_id, file_name)   
+    place_entry_list = list(ts.find_entries(key_list=None, time_query=place_time_query))
+    eee.export(loc_entry_list, trip_entry_list, place_entry_list, ma_entry_list, user_id, file_name, ts)   
+    
+    import emission.core.get_database as edb
+    pipeline_state_list = list(edb.get_pipeline_state_db().find({"user_id": user_id}))
+    logging.info("Found %d pipeline states %s" %
+         (len(pipeline_state_list),
+           list([ps["pipeline_stage"] for ps in pipeline_state_list])))
+    pipeline_filename = "%s_pipelinestate_%s.gz" % (file_name, user_id)
+    with gzip.open(pipeline_filename, "wt") as gpfd:
+        json.dump(pipeline_state_list,
+          gpfd, default=bju.default, allow_nan=False, indent=4)    
 
 def export_timeline_for_users(user_id_list, args):
     for curr_uuid in user_id_list:
diff --git a/emission/export/export.py b/emission/export/export.py
@@ -1,72 +1,35 @@
-from __future__ import print_function
-from __future__ import unicode_literals
-from __future__ import division
-from __future__ import absolute_import
-# Exports all data for the particular user for the particular day
-# Used for debugging issues with trip and section generation
-from future import standard_library
-standard_library.install_aliases()
-from builtins import *
-import sys
 import logging
 logging.basicConfig(level=logging.DEBUG)
 import gzip
 
 import uuid
-import datetime as pydt
 import json
 import bson.json_util as bju
-import arrow
-import argparse
 
-import emission.core.wrapper.user as ecwu
 import emission.storage.timeseries.abstract_timeseries as esta
-import emission.storage.timeseries.timequery as estt
-import emission.storage.decorations.user_queries as esdu
-import emission.storage.timeseries.cache_series as estcs
-# only needed to read the motion_activity
-# https://github.com/e-mission/e-mission-docs/issues/356#issuecomment-520630934
-import emission.net.usercache.abstract_usercache as enua
+#import emission.storage.timeseries.cache_series as estcs
 
-
-def export(loc_time_query, trip_time_query, place_time_query, ma_entry_list, user_id, file_name):
-	ts = esta.TimeSeries.get_time_series(user_id)
-	loc_entry_list = list(estcs.find_entries(user_id, key_list=None, time_query=loc_time_query))
-	trip_entry_list = list(ts.find_entries(key_list=None, time_query=trip_time_query))
-	place_entry_list = list(ts.find_entries(key_list=None, time_query=place_time_query))
-	first_place_extra_query = {'$and': [{'data.enter_ts': {'$exists': False}},
-                                        {'data.exit_ts': {'$exists': True}}]}
-    	first_place_entry_list = list(ts.find_entries(key_list=None, time_query=None, extra_query_list=[first_place_extra_query]))
-    	logging.info("First place entry list = %s" % first_place_entry_list)
+def export(loc_entry_list, trip_entry_list, place_entry_list, ma_entry_list, user_id, file_name, ts):
+	first_place_extra_query = {'$and': [{'data.enter_ts': {'$exists': False}},{'data.exit_ts': {'$exists': True}}]}
+	first_place_entry_list = list(ts.find_entries(key_list=None, time_query=None, extra_query_list=[first_place_extra_query]))
+	logging.info("First place entry list = %s" % first_place_entry_list)
 	combined_list = ma_entry_list + loc_entry_list + trip_entry_list + place_entry_list + first_place_entry_list
 	
 	logging.info("Found %d loc entries, %d motion entries, %d trip-like entries, %d place-like entries = %d total entries" %
         (len(loc_entry_list), len(ma_entry_list), len(trip_entry_list), len(place_entry_list), len(combined_list)))
-
-    	validate_truncation(loc_entry_list, trip_entry_list, place_entry_list)
-
-    	unique_key_list = set([e["metadata"]["key"] for e in combined_list])
-    	logging.info("timeline has unique keys = %s" % unique_key_list)
-    	if len(combined_list) == 0 or unique_key_list == set(['stats/pipeline_time']):
-        	logging.info("No entries found in range for user %s, skipping save" % user_id)
-    	else:
-        	# Also dump the pipeline state, since that's where we have analysis results upto
-        	# This allows us to copy data to a different *live system*, not just
-        	# duplicate for analysis
-        	combined_filename = "%s_%s.gz" % (file_name, user_id)
-        	with gzip.open(combined_filename, "wt") as gcfd:
-            		json.dump(combined_list,gcfd, default=bju.default, allow_nan=False, indent=4)
-
-        	import emission.core.get_database as edb
-        	pipeline_state_list = list(edb.get_pipeline_state_db().find({"user_id": user_id}))
-        	logging.info("Found %d pipeline states %s" %
-            		(len(pipeline_state_list),
-             		list([ps["pipeline_stage"] for ps in pipeline_state_list])))
-
-        	pipeline_filename = "%s_pipelinestate_%s.gz" % (file_name, user_id)
-        	with gzip.open(pipeline_filename, "wt") as gpfd:
-            		json.dump(pipeline_state_list,
-                	gpfd, default=bju.default, allow_nan=False, indent=4)
+	validate_truncation(loc_entry_list, trip_entry_list, place_entry_list)
+
+	unique_key_list = set([e["metadata"]["key"] for e in combined_list])
+	logging.info("timeline has unique keys = %s" % unique_key_list)
+	if len(combined_list) == 0 or unique_key_list == set(['stats/pipeline_time']):
+		logging.info("No entries found in range for user %s, skipping save" % user_id)
+	else:
+		# Also dump the pipeline state, since that's where we have analysis results upto
+		# This allows us to copy data to a different *live system*, not just
+		# duplicate for analysis
+		combined_filename = "%s_%s.gz" % (file_name, user_id)
+		with gzip.open(combined_filename, "wt") as gcfd:
+			json.dump(combined_list,gcfd, default=bju.default, allow_nan=False, indent=4)
 
 def validate_truncation(loc_entry_list, trip_entry_list, place_entry_list):
     MAX_LIMIT = 25 * 10000
diff --git a/emission/exportdata/export_data.py b/emission/exportdata/export_data.py
@@ -5,14 +5,15 @@
 import emission.storage.pipeline_queries as espq
 import emission.storage.timeseries.abstract_timeseries as esta
 import emission.storage.decorations.analysis_timeseries_queries as esda
-import emission.export.run_export_data_pipeline as eer
+import emission.storage.timeseries.cache_series as estcs
 import emission.export.export as eee
+import emission.core.wrapper.pipelinestate as ps
 import gzip
 import json
 import bson.json_util as bju
 
 def set_export_data(user_id):
-    try: 
+    try:
         edp = ExportDataPipeline()
         edp.user_id = user_id
         edp.run_export_data_pipeline(user_id)
@@ -32,14 +33,17 @@ def last_trip_done(self):
         return self._last_trip_done
 
     def run_export_data_pipeline(self, user_id):
-	loc_time_query = epq.get_time_range_for_stage(user_id)
-	loc_time_query.timeType = "data.ts"
-	trip_time_query = epq.get_time_range_for_stage(user_id)
-	trip_time_query.timeType = "data.start_ts"
-	place_time_query = epq.get_time_range_for_stage(user_id)
-	place_time_query.timeType = "data.enter_ts"
-	ma_entry_list = []
-	file_name = "export"
-	eee.export(loc_time_query, trip_time_query, place_time_query, ma_entry_list, user_id, file_name)	        
-
-         
+        ts = esta.TimeSeries.get_time_series(user_id)
+        time_query = espq.get_time_range_for_stage(user_id, ps.PipelineStages.EXPORT_DATA)
+        loc_time_query = time_query
+        loc_time_query.timeType = "data.ts"
+        loc_entry_list = list(estcs.find_entries(user_id, key_list=None, time_query=loc_time_query))
+        trip_time_query = time_query
+        trip_time_query.timeType = "data.end_ts"
+        trip_entry_list = list(ts.find_entries(key_list=None, time_query=trip_time_query))
+        place_time_query = time_query
+        place_time_query.timeType = "data.enter_ts"
+        place_entry_list = list(ts.find_entries(key_list=None, time_query=place_time_query))
+        ma_entry_list = []
+        file_name = "export"
+        eee.export(loc_entry_list, trip_entry_list, place_entry_list, ma_entry_list, user_id, file_name, ts)