BigQuery 에이전트 분석 사용

BigQuery 에이전트 분석은 요청, 응답, 도구 호출, 오류와 같은 원시 에이전트 상호작용을 BigQuery로 직접 스트리밍하여 멀티모달 에이전트 상호작용 데이터를 대규모로 캡처, 분석, 시각화할 수 있는 오픈소스 솔루션입니다. 이 솔루션을 사용하면 AI 기반 평가를 실행하고, 에이전트 프롬프트를 최적화하고, 장기 기억을 추출하여 향후 상호작용을 개선할 수 있습니다. BigQuery 에이전트 분석 은 에이전트 개발 키트 (ADK)LangGraph (미리보기)에서 지원됩니다.

아키텍처

BigQuery 에이전트 분석은 에이전트 실행을 차단하지 않고 높은 처리량과 짧은 지연 시간의 로그 스트리밍을 제공하는 BigQuery Storage Write API를 사용하여 에이전트 활동 데이터를 BigQuery로 스트리밍합니다.

데이터 흐름은 다음 단계로 구성됩니다.

  1. 캡처. 에이전트 개발 키트 (ADK)의 플러그인 또는 LangGraph의 콜백을 사용하여 상호작용 이벤트를 가로채 에이전트 이벤트를 캡처합니다.
  2. 스트림. 상호작용 이벤트는 Storage Write API를 통해 BigQuery로 전송됩니다. 표준화된 스키마가 없으면 에이전트가 자동으로 스키마를 만듭니다.
  3. 소비. 로깅된 에이전트 데이터를 분석하고 평가합니다. SQL로 원시 데이터 를 쿼리하거나, 커스텀 대시보드에서 측정항목을 추적하거나, BigQuery 에이전트 분석 SDK를 사용하여 복잡한 다중 턴 에이전트 실행 trace를 재구성하고 평가할 수 있습니다.

오케스트레이션 프레임워크에서 BigQuery로 흘러 분석되는 에이전트 활동 데이터를 보여주는 다이어그램

에이전트 분석의 이점

  • 단일 코드 줄로 포괄적인 로깅을 사용 설정하고 스키마 관리를 자동화합니다.
  • 객체 테이블을 사용하여 텍스트, 이미지, 동영상, 오디오와 같은 멀티모달 데이터를 로깅하고 분석합니다.
  • 강력한 사전 정의된 스키마 내에서 토큰 소비 및 지연 시간과 같은 운영 측정항목을 추적합니다.
  • BigQuery 생성형 AI 함수 및 벡터 검색을 사용하여 최적화 기회를 식별합니다.
  • 세분화된 액세스 제어, 데이터 마스크 처리, 암호화를 사용하여 에이전트 로그를 보호합니다.

에이전트 로그 데이터를 캡처하는 방법

에이전트의 상호작용 텔레메트리 (요청, 응답, 도구 호출, 오류 로그)를 BigQuery에 기본적으로 캡처하려면 다음과 같은 여러 방법으로 이벤트 데이터를 로깅할 수 있습니다.

  • 조정 프레임워크 플러그인: 에이전트 조정 툴킷에서 제공하는 표준 로깅 플러그인을 사용합니다. 예를 들어 에이전트 개발 키트 (ADK)의 BigQueryAgentAnalyticsPlugin은 에이전트 실행기에 연결되어 이벤트를 자동으로 가로채고 직렬화하고 스트리밍합니다.
  • 프레임워크 콜백 핸들러: 인기 있는 에이전트 환경에서 표준 콜백을 통합합니다. 예를 들어 LangGraph 및 LangChain의 기본 제공 BigQuery 핸들러를 사용하여 trace를 가로채고 전달할 수 있습니다.
  • 직접 API 수집: 커스텀 또는 독점 프레임워크의 경우 Cloud de Confiance by S3NS 클라이언트 라이브러리를 사용하여 구조화된 이벤트를 이벤트 테이블로 Storage Write API를 통해 직접 스트리밍합니다.

방법에 관계없이 모든 로깅 옵션은 지연 시간이 짧고 처리량이 높은 BigQuery Storage Write API를 사용합니다. 이 API는 커밋하기 전에 메모리에서 비동기적으로 행을 버퍼링하고 직렬화하는 (PyArrow 엔진 사용) 강력한 스트리밍 엔드포인트를 제공하여 관측 가능성 파이프라인 작업이 사용자 대상 에이전트 실행 턴을 차단하지 않도록 합니다.

에이전트 로그 데이터를 분석하는 방법

에이전트의 성능을 파악하고 최적화하려면 다음과 같은 방법으로 상호작용 로그를 분석하고 평가하세요.

에이전트 로그 데이터 작업 예시

다음은 BigQuery에서 에이전트 로그 데이터를 사용하는 일반적인 사용 사례와 예시입니다.

관측 가능성 및 운영 측정항목

에이전트 평가 및 품질 분석

비즈니스 분석 정보 및 컨텍스트화

에이전트 데이터를 컨텍스트화하려면 agent_events 테이블을 다른 비즈니스 테이블과 조인합니다 . 예를 들어 AI 에이전트와 상호작용한 고객과 검색창을 사용한 고객의 평균 주문 금액 (AOV)을 표시합니다.

더 많은 예시는 고급 분석 쿼리를 참조하세요.

Jupyter 노트북을 사용하여 에이전트 로그 작업

예시 Colab Jupyter 노트북 을 사용하여 에이전트 로그를 대화형으로 쿼리, 시각화, 평가합니다.

BigQuery 에이전트 분석 SDK 사용

BigQuery 에이전트 분석 SDK는 장기 에이전트 관측 가능성을 위한 소비 및 평가 레이어를 제공하는 오픈소스 Python 라이브러리입니다. 대시보드와 노트북은 임시 탐색에 적합하며 SDK는 에이전트 동작을 대규모로 체계적으로 분석하고 감사하는 방법을 제공합니다.

SDK로 할 수 있는 작업

BigQuery 에이전트 분석 SDK를 사용하여 다음 작업을 실행할 수 있습니다. 로그 분석의 자세한 예시는 SDK의 GitHub 저장소를 참조하세요.

  • trace 재구성: 다형 이벤트 로그를 이벤트의 인과적 체인으로 재구성하여 중첩된 도구 및 LLM 호출을 포함한 여러 턴에 걸쳐 세션을 디버그합니다.
  • 결정적 및 시맨틱 평가: 지연 시간, 턴 수, 오류율과 같은 규칙 기반 기준과 정확성, 감정, 환각과 같은 시맨틱 기준을 기준으로 에이전트 품질을 평가합니다.
  • 궤적 일치: 실제 에이전트 실행 경로를 예상되는 골든 궤적과 비교하여 단계 효율성과 도구가 올바른 순서로 사용되었는지 확인합니다.
  • 동작 모니터링 및 드리프트 감지: 비결정적 에이전트 출력에 대한 통계 분석을 실행하고, 사용자 요청 분포를 모니터링하고, 프로덕션 회귀 또는 시맨틱 드리프트를 감지합니다.
  • 장기 에이전트 메모리: BigQuery에 기본적으로 저장된 교차 세션 컨텍스트, 사용자 프로필 시맨틱 검색, 토큰 예산 인식 에피소드 메모리 를 에이전트에 제공합니다.

에이전트 활동 로깅 및 분석

SDK를 에이전트 워크플로에 통합하는 데는 일반적으로 다음 단계가 포함됩니다.

  1. 상호작용 로깅: 에이전트 조정 프레임워크에 로거 플러그인 (예: ADK의 BigQueryAgentAnalyticsPlugin) 또는 콜백 핸들러를 연결합니다. 사용자가 에이전트와 상호작용하면 처리량이 높은 Storage Write API를 사용하여 로그가 BigQuery로 비동기적으로 스트리밍됩니다.
  2. 클라이언트 초기화: Python SDK에서 로그 데이터 세트에 연결합니다.

    from google.cloud import bigquery
    from bigquery_agent_analytics import Client
    
    client = Client(
        project_id="YOUR_PROJECT_ID",
        dataset_id="YOUR_DATASET_ID",
        table_id="agent_events",
    )
    

    이 스니펫은 다음 구성요소를 사용합니다.

    • client: 쿼리를 프로그래매틱 방식으로 라우팅하고 활성 데이터베이스 연결을 관리하는 상위 Client 인스턴스입니다.
    • project_id: 대상 데이터 세트를 호스팅하는 Cloud de Confiance by S3NS 프로젝트 ID입니다.
    • dataset_id: 로그를 저장하는 BigQuery 데이터 세트 이름입니다.
    • table_id: 텔레메트리 이벤트를 저장하는 특정 테이블입니다 (기본적으로 agent_events).
  3. 세션 trace 재구성: 특정 대화 세션을 가져와 이벤트의 정확한 시퀀스를 시각화하고 검토합니다.

    trace = client.get_trace(
        session_id="YOUR_SESSION_ID"
    )
    trace.render()
    

    이 스니펫은 다음 구성요소를 사용합니다.

    • trace: 모든 사용자 및 에이전트 작업의 재구성된 인과적으로 연결된 계층적 DAG 스팬 트리를 호스팅하는 하이드레이션된 Trace 객체입니다.
    • YOUR_SESSION_ID: 검사하려는 세션의 고유 ID입니다.
  4. 자동 평가 실행: 세션 궤적을 프로그래매틱 방식으로 점수화하거나 골든 테스트 모음을 기준으로 회귀를 확인합니다.

    from bigquery_agent_analytics.evaluators import CodeEvaluator, LLMAsJudge
    from bigquery_agent_analytics.grader_pipeline import GraderPipeline
    
    # Create a grader pipeline with deterministic and semantic metrics
    evaluator = GraderPipeline(
        graders=[
            CodeEvaluator.latency(threshold_ms=5000),
            LLMAsJudge.correctness(),
        ]
    )
    report = client.evaluate(evaluator, session_ids=["session_1", "session_2"])
    print(f"Evaluation Pass Rate: {report.pass_rate:.2%}")
    

    이 스니펫은 다음 구성요소를 사용합니다.

    • evaluator: 이기종 규칙 기반 및 시맨틱 평가 측정항목을 구성하는 컴파일된 구조화된 GraderPipeline 논리입니다.
    • session_ids: BigQuery에서 일괄 평가를 실행할 세션 ID 문자열 목록입니다.
    • report: 원시 세션 등급, 측정항목 요약, 평가판 통계, 자동 평가자 의견이 포함된 결과 EvaluationReport 객체입니다.

BigQuery 에이전트 분석을 워크플로에 통합

BigQuery 에이전트 분석을 워크플로에 통합하려면 프레임워크 문서를 참조하세요.

다음 단계