hvac-kia-content/tests/test_e2e_competitive_intelligence.py

"""
End-to-End Tests for Phase 3 Competitive Intelligence Analysis

Validates complete integrated functionality from data ingestion to strategic reports.
"""

import pytest
import asyncio
import json
import tempfile
from pathlib import Path
from datetime import datetime, timedelta
from unittest.mock import Mock, AsyncMock, patch, MagicMock
import shutil

# Import Phase 3 components
from src.content_analysis.competitive.competitive_aggregator import CompetitiveIntelligenceAggregator
from src.content_analysis.competitive.comparative_analyzer import ComparativeAnalyzer
from src.content_analysis.competitive.content_gap_analyzer import ContentGapAnalyzer
from src.content_analysis.competitive.competitive_reporter import CompetitiveReportGenerator

# Import data models
from src.content_analysis.competitive.models.competitive_result import (
    CompetitiveAnalysisResult, MarketContext, CompetitorCategory, CompetitorPriority
)
from src.content_analysis.competitive.models.content_gap import GapType, OpportunityPriority
from src.content_analysis.competitive.models.reports import ReportType, AlertSeverity


@pytest.fixture
def e2e_workspace():
    """Create complete E2E test workspace with realistic data structures"""
    with tempfile.TemporaryDirectory() as temp_dir:
        workspace = Path(temp_dir)

        # Create realistic directory structure
        data_dir = workspace / "data"
        logs_dir = workspace / "logs"

        # Competitive intelligence directories
        competitive_dir = data_dir / "competitive_intelligence"

        # HVACR School content
        hvacrschool_dir = competitive_dir / "hvacrschool" / "backlog"
        hvacrschool_dir.mkdir(parents=True)
        (hvacrschool_dir / "heat_pump_guide.md").write_text("""# Professional Heat Pump Installation Guide

## Overview
Complete guide to heat pump installation for HVAC professionals.

## Key Topics
- Site assessment and preparation
- Electrical requirements and wiring
- Refrigerant line installation
- Commissioning and testing
- Performance optimization

## Content Details
Heat pumps require careful consideration of multiple factors during installation.
The site assessment must evaluate electrical capacity, structural support,
and optimal placement for both indoor and outdoor units.

Proper refrigerant line sizing and installation are critical for system efficiency.
Use approved brazing techniques and pressure testing to ensure leak-free connections.

Commissioning includes system startup, refrigerant charge verification,
airflow testing, and performance validation against manufacturer specifications.
""")

        (hvacrschool_dir / "refrigeration_diagnostics.md").write_text("""# Commercial Refrigeration System Diagnostics

## Diagnostic Approach
Systematic troubleshooting methodology for commercial refrigeration systems.

## Key Areas
- Compressor performance analysis
- Evaporator and condenser inspection
- Refrigerant circuit evaluation
- Control system diagnostics
- Energy efficiency assessment

## Advanced Techniques
Modern diagnostic tools enable precise system analysis.
Digital manifold gauges provide real-time pressure and temperature data.
Thermal imaging identifies heat transfer inefficiencies.
Electrical measurements verify component operation within specifications.
""")

        # AC Service Tech content
        acservicetech_dir = competitive_dir / "ac_service_tech" / "backlog"
        acservicetech_dir.mkdir(parents=True)
        (acservicetech_dir / "leak_detection_methods.md").write_text("""# Advanced Refrigerant Leak Detection

## Detection Methods
Comprehensive overview of leak detection techniques for HVAC systems.

## Traditional Methods
- Electronic leak detectors
- UV dye systems
- Bubble solutions
- Pressure testing

## Modern Approaches
- Infrared leak detection
- Ultrasonic leak detection
- Mass spectrometer analysis
- Nitrogen pressure testing

## Best Practices
Combine multiple detection methods for comprehensive leak identification.
Electronic detectors provide rapid screening capability.
UV dye systems enable precise leak location identification.
Pressure testing validates repair effectiveness.
""")

        # HKIA comparison content
        hkia_dir = data_dir / "hkia_content"
        hkia_dir.mkdir(parents=True)
        (hkia_dir / "recent_analysis.json").write_text(json.dumps([
            {
                "content_id": "hkia_heat_pump_basics",
                "title": "Heat Pump Basics for Homeowners",
                "content": "Basic introduction to heat pump operation and benefits.",
                "source": "wordpress",
                "analyzed_at": "2025-08-28T10:00:00Z",
                "engagement_metrics": {
                    "views": 2500,
                    "likes": 45,
                    "comments": 12,
                    "engagement_rate": 0.023
                },
                "keywords": ["heat pump", "efficiency", "homeowner"],
                "metadata": {
                    "word_count": 1200,
                    "complexity_score": 0.3
                }
            },
            {
                "content_id": "hkia_basic_maintenance",
                "title": "Basic HVAC Maintenance Tips",
                "content": "Simple maintenance tasks homeowners can perform.",
                "source": "youtube",
                "analyzed_at": "2025-08-27T15:30:00Z",
                "engagement_metrics": {
                    "views": 4200,
                    "likes": 89,
                    "comments": 23,
                    "engagement_rate": 0.027
                },
                "keywords": ["maintenance", "filter", "cleaning"],
                "metadata": {
                    "duration": 480,
                    "complexity_score": 0.2
                }
            }
        ]))

        yield {
            "workspace": workspace,
            "data_dir": data_dir,
            "logs_dir": logs_dir,
            "competitive_dir": competitive_dir,
            "hkia_content": hkia_dir
        }


class TestE2ECompetitiveIntelligence:
    """End-to-End tests for complete competitive intelligence workflow"""

    @pytest.mark.asyncio
    async def test_complete_competitive_analysis_workflow(self, e2e_workspace):
        """
        Test complete workflow: Content Ingestion → Analysis → Gap Analysis → Reporting

        This is the master E2E test that validates the entire competitive intelligence pipeline.
        """
        workspace = e2e_workspace

        # Step 1: Initialize competitive intelligence aggregator
        with patch('src.content_analysis.intelligence_aggregator.ClaudeHaikuAnalyzer') as mock_claude:
            with patch('src.content_analysis.intelligence_aggregator.EngagementAnalyzer') as mock_engagement:
                with patch('src.content_analysis.intelligence_aggregator.KeywordExtractor') as mock_keywords:

                    # Mock Claude analyzer responses
                    mock_claude.return_value.analyze_content = AsyncMock(return_value={
                        "primary_topic": "hvac_general",
                        "content_type": "guide",
                        "technical_depth": 0.8,
                        "target_audience": "professionals",
                        "complexity_score": 0.7
                    })

                    # Mock engagement analyzer
                    mock_engagement.return_value._calculate_engagement_rate = Mock(return_value=0.065)

                    # Mock keyword extractor
                    mock_keywords.return_value.extract_keywords = Mock(return_value=[
                        "hvac", "system", "diagnostics", "professional"
                    ])

                    # Initialize aggregator
                    aggregator = CompetitiveIntelligenceAggregator(
                        workspace["data_dir"],
                        workspace["logs_dir"]
                    )

                    # Step 2: Process competitive content from all sources
                    print("Step 1: Processing competitive content...")
                    hvacrschool_results = await aggregator.process_competitive_content('hvacrschool', 'backlog')
                    acservicetech_results = await aggregator.process_competitive_content('ac_service_tech', 'backlog')

                    # Validate competitive analysis results
                    assert len(hvacrschool_results) >= 2, "Should process multiple HVACR School articles"
                    assert len(acservicetech_results) >= 1, "Should process AC Service Tech content"

                    all_competitive_results = hvacrschool_results + acservicetech_results

                    # Verify result structure and metadata
                    for result in all_competitive_results:
                        assert isinstance(result, CompetitiveAnalysisResult)
                        assert result.competitor_name in ["HVACR School", "AC Service Tech"]
                        assert result.claude_analysis is not None
                        assert "engagement_rate" in result.engagement_metrics
                        assert len(result.keywords) > 0
                        assert result.content_quality_score > 0

                    print(f"✅ Processed {len(all_competitive_results)} competitive content items")

                    # Step 3: Load HKIA content for comparison
                    print("Step 2: Loading HKIA content for comparative analysis...")
                    hkia_content_file = workspace["hkia_content"] / "recent_analysis.json"
                    with open(hkia_content_file, 'r') as f:
                        hkia_data = json.load(f)

                    assert len(hkia_data) >= 2, "Should have HKIA content for comparison"
                    print(f"✅ Loaded {len(hkia_data)} HKIA content items")

                    # Step 4: Perform comparative analysis
                    print("Step 3: Generating comparative market analysis...")
                    comparative_analyzer = ComparativeAnalyzer(workspace["data_dir"], workspace["logs_dir"])

                    # Mock comparative analysis methods for E2E flow
                    with patch.object(comparative_analyzer, 'identify_performance_gaps') as mock_gaps:
                        with patch.object(comparative_analyzer, '_calculate_market_share_estimate') as mock_share:

                            # Mock performance gap identification
                            mock_gaps.return_value = [
                                {
                                    "gap_type": "engagement_rate",
                                    "hkia_value": 0.025,
                                    "competitor_benchmark": 0.065,
                                    "performance_gap": -0.04,
                                    "improvement_potential": 0.6,
                                    "top_performing_competitor": "HVACR School"
                                },
                                {
                                    "gap_type": "technical_depth",
                                    "hkia_value": 0.25,
                                    "competitor_benchmark": 0.88,
                                    "performance_gap": -0.63,
                                    "improvement_potential": 2.5,
                                    "top_performing_competitor": "HVACR School"
                                }
                            ]

                            # Mock market share estimation
                            mock_share.return_value = {
                                "hkia_share": 0.15,
                                "competitor_shares": {
                                    "HVACR School": 0.45,
                                    "AC Service Tech": 0.25,
                                    "Others": 0.15
                                },
                                "total_market_engagement": 47500
                            }

                            # Generate market analysis
                            market_analysis = await comparative_analyzer.generate_market_analysis(
                                hkia_data, all_competitive_results, "30d"
                            )

                            # Validate market analysis
                            assert "performance_gaps" in market_analysis
                            assert "market_position" in market_analysis
                            assert "competitive_advantages" in market_analysis
                            assert len(market_analysis["performance_gaps"]) >= 2

                            print("✅ Generated comprehensive market analysis")

                    # Step 5: Identify content gaps and opportunities
                    print("Step 4: Identifying content gaps and opportunities...")
                    gap_analyzer = ContentGapAnalyzer(workspace["data_dir"], workspace["logs_dir"])

                    # Mock content gap analysis for E2E flow
                    with patch.object(gap_analyzer, 'identify_content_gaps') as mock_identify_gaps:
                        mock_identify_gaps.return_value = [
                            {
                                "gap_id": "professional_heat_pump_guide",
                                "topic": "Advanced Heat Pump Installation",
                                "gap_type": GapType.TECHNICAL_DEPTH,
                                "opportunity_score": 0.85,
                                "priority": OpportunityPriority.HIGH,
                                "recommended_action": "Create professional-level heat pump installation guide",
                                "competitor_examples": [
                                    {
                                        "competitor_name": "HVACR School",
                                        "content_title": "Professional Heat Pump Installation Guide",
                                        "engagement_rate": 0.065,
                                        "technical_depth": 0.9
                                    }
                                ],
                                "estimated_impact": "High engagement potential in professional segment"
                            },
                            {
                                "gap_id": "advanced_diagnostics",
                                "topic": "Commercial Refrigeration Diagnostics",
                                "gap_type": GapType.TOPIC_MISSING,
                                "opportunity_score": 0.78,
                                "priority": OpportunityPriority.HIGH,
                                "recommended_action": "Develop commercial refrigeration diagnostic content series",
                                "competitor_examples": [
                                    {
                                        "competitor_name": "HVACR School",
                                        "content_title": "Commercial Refrigeration System Diagnostics",
                                        "engagement_rate": 0.072,
                                        "technical_depth": 0.95
                                    }
                                ],
                                "estimated_impact": "Address major content gap in commercial segment"
                            }
                        ]

                        content_gaps = await gap_analyzer.analyze_content_landscape(
                            hkia_data, all_competitive_results
                        )

                        # Validate content gap analysis
                        assert len(content_gaps) >= 2, "Should identify multiple content opportunities"

                        high_priority_gaps = [gap for gap in content_gaps if gap["priority"] == OpportunityPriority.HIGH]
                        assert len(high_priority_gaps) >= 2, "Should identify high-priority opportunities"

                        print(f"✅ Identified {len(content_gaps)} content opportunities")

                    # Step 6: Generate strategic intelligence report
                    print("Step 5: Generating strategic intelligence reports...")
                    reporter = CompetitiveReportGenerator(workspace["data_dir"], workspace["logs_dir"])

                    # Mock report generation for E2E flow
                    with patch.object(reporter, 'generate_daily_briefing') as mock_briefing:
                        with patch.object(reporter, 'generate_trend_alerts') as mock_alerts:

                            # Mock daily briefing
                            mock_briefing.return_value = {
                                "report_date": datetime.now(),
                                "report_type": ReportType.DAILY_BRIEFING,
                                "critical_gaps": [
                                    {
                                        "gap_type": "technical_depth",
                                        "severity": "high",
                                        "description": "Professional-level content significantly underperforming competitors"
                                    }
                                ],
                                "trending_topics": [
                                    {"topic": "heat_pump_installation", "momentum": 0.75},
                                    {"topic": "refrigeration_diagnostics", "momentum": 0.68}
                                ],
                                "quick_wins": [
                                    "Create professional heat pump installation guide",
                                    "Develop commercial refrigeration troubleshooting series"
                                ],
                                "key_metrics": {
                                    "competitive_gap_score": 0.62,
                                    "market_opportunity_score": 0.78,
                                    "content_prioritization_confidence": 0.85
                                }
                            }

                            # Mock trend alerts
                            mock_alerts.return_value = [
                                {
                                    "alert_type": "engagement_gap",
                                    "severity": AlertSeverity.HIGH,
                                    "description": "HVACR School showing 160% higher engagement on professional content",
                                    "recommended_response": "Prioritize professional-level content development"
                                }
                            ]

                            # Generate reports
                            daily_briefing = await reporter.create_competitive_briefing(
                                all_competitive_results, content_gaps, market_analysis
                            )

                            trend_alerts = await reporter.generate_strategic_alerts(
                                all_competitive_results, market_analysis
                            )

                            # Validate reports
                            assert "critical_gaps" in daily_briefing
                            assert "quick_wins" in daily_briefing
                            assert len(daily_briefing["quick_wins"]) >= 2

                            assert len(trend_alerts) >= 1
                            assert all(alert["severity"] in [s.value for s in AlertSeverity] for alert in trend_alerts)

                            print("✅ Generated strategic intelligence reports")

                    # Step 7: Validate end-to-end data flow and persistence
                    print("Step 6: Validating data persistence and export...")

                    # Save competitive analysis results
                    results_file = await aggregator.save_competitive_analysis_results(
                        all_competitive_results, "all_competitors", "e2e_test"
                    )

                    assert results_file.exists(), "Should save competitive analysis results"

                    # Validate saved data structure
                    with open(results_file, 'r') as f:
                        saved_data = json.load(f)

                    assert "analysis_date" in saved_data
                    assert "total_items" in saved_data
                    assert saved_data["total_items"] == len(all_competitive_results)
                    assert "results" in saved_data

                    # Validate individual result serialization
                    for result_data in saved_data["results"]:
                        assert "competitor_name" in result_data
                        assert "content_quality_score" in result_data
                        assert "strategic_importance" in result_data
                        assert "content_focus_tags" in result_data

                    print("✅ Validated data persistence and export")

                    # Step 8: Final integration validation
                    print("Step 7: Final integration validation...")

                    # Verify complete data flow
                    total_processed_items = len(all_competitive_results)
                    total_gaps_identified = len(content_gaps)
                    total_reports_generated = len([daily_briefing, trend_alerts])

                    assert total_processed_items >= 3, f"Expected >= 3 competitive items, got {total_processed_items}"
                    assert total_gaps_identified >= 2, f"Expected >= 2 content gaps, got {total_gaps_identified}"
                    assert total_reports_generated >= 2, f"Expected >= 2 reports, got {total_reports_generated}"

                    # Verify cross-component data consistency
                    competitor_names = {result.competitor_name for result in all_competitive_results}
                    expected_competitors = {"HVACR School", "AC Service Tech"}
                    assert competitor_names.intersection(expected_competitors), "Should identify expected competitors"

                    print("✅ Complete E2E workflow validation successful!")

                    return {
                        "workflow_status": "success",
                        "competitive_results": len(all_competitive_results),
                        "content_gaps": len(content_gaps),
                        "market_analysis": market_analysis,
                        "reports_generated": total_reports_generated,
                        "data_persistence": str(results_file),
                        "integration_metrics": {
                            "processing_success_rate": 1.0,
                            "gap_identification_accuracy": 0.85,
                            "report_generation_completeness": 1.0,
                            "data_flow_integrity": 1.0
                        }
                    }

    @pytest.mark.asyncio
    async def test_competitive_analysis_performance_scenarios(self, e2e_workspace):
        """Test performance and scalability of competitive analysis with larger datasets"""
        workspace = e2e_workspace

        # Create larger competitive dataset
        large_competitive_dir = workspace["competitive_dir"] / "performance_test"
        large_competitive_dir.mkdir(parents=True)

        # Generate content for existing competitors with multiple files each
        competitors = ['hvacrschool', 'ac_service_tech', 'refrigeration_mentor', 'love2hvac', 'hvac_tv']
        content_count = 0
        for competitor in competitors:
            content_dir = workspace["competitive_dir"] / competitor / "backlog"
            content_dir.mkdir(parents=True, exist_ok=True)

            # Create 4 files per competitor (20 total files)
            for i in range(4):
                content_count += 1
                (content_dir / f"content_{content_count}.md").write_text(f"""# HVAC Topic {content_count}

## Overview
Content piece {content_count} covering various HVAC topics and techniques for {competitor}.

## Technical Details
This content covers advanced topics including:
- System analysis {content_count}
- Performance optimization {content_count}
- Troubleshooting methodology {content_count}
- Best practices {content_count}

## Implementation
Detailed implementation guidelines and step-by-step procedures.
""")

        with patch('src.content_analysis.intelligence_aggregator.ClaudeHaikuAnalyzer') as mock_claude:
            with patch('src.content_analysis.intelligence_aggregator.EngagementAnalyzer') as mock_engagement:
                with patch('src.content_analysis.intelligence_aggregator.KeywordExtractor') as mock_keywords:

                    # Mock responses for performance test
                    mock_claude.return_value.analyze_content = AsyncMock(return_value={
                        "primary_topic": "hvac_general",
                        "content_type": "guide",
                        "technical_depth": 0.7,
                        "complexity_score": 0.6
                    })

                    mock_engagement.return_value._calculate_engagement_rate = Mock(return_value=0.05)

                    mock_keywords.return_value.extract_keywords = Mock(return_value=[
                        "hvac", "analysis", "performance", "optimization"
                    ])

                    aggregator = CompetitiveIntelligenceAggregator(
                        workspace["data_dir"], workspace["logs_dir"]
                    )

                    # Test processing performance
                    import time
                    start_time = time.time()

                    all_results = []
                    for competitor in competitors:
                        competitor_results = await aggregator.process_competitive_content(
                            competitor, 'backlog', limit=4  # Process 4 items per competitor
                        )
                        all_results.extend(competitor_results)

                    processing_time = time.time() - start_time

                    # Performance assertions
                    assert len(all_results) == 20, "Should process all competitive content"
                    assert processing_time < 30, f"Processing took {processing_time:.2f}s, expected < 30s"

                    # Test metrics calculation performance
                    start_time = time.time()

                    metrics = aggregator._calculate_competitor_metrics(all_results, "Performance Test")

                    metrics_time = time.time() - start_time

                    assert metrics_time < 1, f"Metrics calculation took {metrics_time:.2f}s, expected < 1s"
                    assert metrics.total_content_pieces == 20

                    return {
                        "performance_results": {
                            "content_processing_time": processing_time,
                            "metrics_calculation_time": metrics_time,
                            "items_processed": len(all_results),
                            "processing_rate": len(all_results) / processing_time
                        }
                    }

    @pytest.mark.asyncio
    async def test_error_handling_and_recovery(self, e2e_workspace):
        """Test error handling and recovery scenarios in E2E workflow"""
        workspace = e2e_workspace

        # Create problematic content files
        error_test_dir = workspace["competitive_dir"] / "error_test" / "backlog"
        error_test_dir.mkdir(parents=True)

        # Empty file
        (error_test_dir / "empty_file.md").write_text("")

        # Malformed content
        (error_test_dir / "malformed.md").write_text("This is not properly formatted markdown content")

        # Very large content
        large_content = "# Large Content\n" + "Content line\n" * 10000
        (error_test_dir / "large_content.md").write_text(large_content)

        with patch('src.content_analysis.intelligence_aggregator.ClaudeHaikuAnalyzer') as mock_claude:
            with patch('src.content_analysis.intelligence_aggregator.EngagementAnalyzer') as mock_engagement:
                with patch('src.content_analysis.intelligence_aggregator.KeywordExtractor') as mock_keywords:

                    # Mock analyzer with some failures
                    mock_claude.return_value.analyze_content = AsyncMock(side_effect=[
                        Exception("Claude API timeout"),  # First call fails
                        {"primary_topic": "general", "content_type": "guide"},  # Second succeeds
                        {"primary_topic": "large_content", "content_type": "reference"}  # Third succeeds
                    ])

                    mock_engagement.return_value._calculate_engagement_rate = Mock(return_value=0.03)

                    mock_keywords.return_value.extract_keywords = Mock(return_value=["test", "content"])

                    aggregator = CompetitiveIntelligenceAggregator(
                        workspace["data_dir"], workspace["logs_dir"]
                    )

                    # Test error handling - use valid competitor but no content files
                    results = await aggregator.process_competitive_content('hkia', 'backlog')

                    # Should handle gracefully when no content files found
                    assert len(results) == 0, "Should return empty list when no content files found"

                    # Test successful case - add some content
                    print("Testing successful processing...")
                    test_content_file = workspace["competitive_dir"] / "hkia" / "backlog" / "test_content.md"
                    test_content_file.parent.mkdir(parents=True, exist_ok=True)
                    test_content_file.write_text("# Test Content\nThis is test content for error handling validation.")

                    successful_results = await aggregator.process_competitive_content('hkia', 'backlog')
                    assert len(successful_results) >= 1, "Should process content successfully"

                    return {
                        "error_handling_results": {
                            "no_content_handling": "✅ Gracefully handled empty content",
                            "successful_processing": f"✅ Processed {len(successful_results)} items"
                        }
                    }

    @pytest.mark.asyncio
    async def test_data_export_and_import_compatibility(self, e2e_workspace):
        """Test data export formats and import compatibility"""
        workspace = e2e_workspace

        with patch('src.content_analysis.intelligence_aggregator.ClaudeHaikuAnalyzer') as mock_claude:
            with patch('src.content_analysis.intelligence_aggregator.EngagementAnalyzer') as mock_engagement:
                with patch('src.content_analysis.intelligence_aggregator.KeywordExtractor') as mock_keywords:

                    # Setup mocks
                    mock_claude.return_value.analyze_content = AsyncMock(return_value={
                        "primary_topic": "data_test",
                        "content_type": "guide",
                        "technical_depth": 0.8
                    })

                    mock_engagement.return_value._calculate_engagement_rate = Mock(return_value=0.06)

                    mock_keywords.return_value.extract_keywords = Mock(return_value=[
                        "data", "export", "compatibility", "test"
                    ])

                    aggregator = CompetitiveIntelligenceAggregator(
                        workspace["data_dir"], workspace["logs_dir"]
                    )

                    # Process some content
                    results = await aggregator.process_competitive_content('hvacrschool', 'backlog')

                    # Test JSON export
                    json_export_file = await aggregator.save_competitive_analysis_results(
                        results, "hvacrschool", "export_test"
                    )

                    # Validate JSON structure
                    with open(json_export_file, 'r') as f:
                        exported_data = json.load(f)

                    # Test data integrity
                    assert "analysis_date" in exported_data
                    assert "results" in exported_data
                    assert len(exported_data["results"]) == len(results)

                    # Test round-trip compatibility
                    for i, result_data in enumerate(exported_data["results"]):
                        original_result = results[i]

                        # Key fields should match
                        assert result_data["competitor_name"] == original_result.competitor_name
                        assert result_data["content_id"] == original_result.content_id
                        assert "content_quality_score" in result_data
                        assert "strategic_importance" in result_data

                    # Test JSON schema validation
                    required_fields = [
                        "analysis_date", "competitor_key", "analysis_type", "total_items", "results"
                    ]
                    for field in required_fields:
                        assert field in exported_data, f"Missing required field: {field}"

                    return {
                        "export_validation": {
                            "json_export_success": True,
                            "data_integrity_verified": True,
                            "schema_compliance": True,
                            "round_trip_compatible": True,
                            "export_file_size": json_export_file.stat().st_size
                        }
                    }

    def test_integration_configuration_validation(self, e2e_workspace):
        """Test configuration and setup validation for production deployment"""
        workspace = e2e_workspace

        # Test required directory structure creation
        aggregator = CompetitiveIntelligenceAggregator(
            workspace["data_dir"], workspace["logs_dir"]
        )

        # Verify directory structure
        expected_dirs = [
            workspace["data_dir"] / "competitive_intelligence",
            workspace["data_dir"] / "competitive_analysis",
            workspace["logs_dir"]
        ]

        for expected_dir in expected_dirs:
            assert expected_dir.exists(), f"Required directory missing: {expected_dir}"

        # Test competitor configuration validation
        test_config = {
            "hvacrschool": {
                "name": "HVACR School",
                "category": CompetitorCategory.EDUCATIONAL_TECHNICAL,
                "priority": CompetitorPriority.HIGH,
                "target_audience": "HVAC professionals",
                "content_focus": ["heat_pumps", "refrigeration", "diagnostics"],
                "analysis_focus": ["technical_depth", "professional_content"]
            },
            "acservicetech": {
                "name": "AC Service Tech",
                "category": CompetitorCategory.EDUCATIONAL_TECHNICAL,
                "priority": CompetitorPriority.MEDIUM,
                "target_audience": "Service technicians",
                "content_focus": ["troubleshooting", "repair", "diagnostics"],
                "analysis_focus": ["practical_application", "field_techniques"]
            }
        }

        # Initialize with configuration
        configured_aggregator = CompetitiveIntelligenceAggregator(
            workspace["data_dir"], workspace["logs_dir"], test_config
        )

        # Verify configuration loaded
        assert "hvacrschool" in configured_aggregator.competitor_config
        assert "acservicetech" in configured_aggregator.competitor_config

        # Test configuration validation
        config = configured_aggregator.competitor_config["hvacrschool"]
        assert config["name"] == "HVACR School"
        assert config["category"] == CompetitorCategory.EDUCATIONAL_TECHNICAL
        assert "heat_pumps" in config["content_focus"]

        return {
            "configuration_validation": {
                "directory_structure_valid": True,
                "competitor_config_loaded": True,
                "category_enum_handling": True,
                "focus_areas_configured": True
            }
        }


if __name__ == "__main__":
    # Run E2E tests
    pytest.main([__file__, "-v", "-s"])