文書処理

概要

文書処理ツールを使用すると、PDF、DOCX、Word文書を含むさまざまな文書形式からテキストコンテンツを抽出できます。これらのツールは、文書分析、コンテンツ抽出、テキスト処理ワークフローに不可欠です。

主な機能

PDF_EXTRACT_TEXT
- PDFファイルからテキストコンテンツを抽出
DOCX_EXTRACT_TEXT
- DOCXファイルからテキストコンテンツを抽出
WORD_TABLE_EXTRACT
- Word文書からテーブルデータをJSONとして抽出
WORD_TABLE_UPDATE
- Word文書のテーブルデータを更新
TRANSLATE_PPTX_FILE
- PowerPoint（PPTX）ファイルのテキストコンテンツを異なる言語に翻訳

認証

認証は不要です。文書処理ツールは、ファイルURLまたはbase64エンコードされたファイルで直接動作します。

例: 基本的なテキスト抽出

- id: extract_pdf_text
  name: extract_pdf_text
  tool: PDF_EXTRACT_TEXT
  input:
    - name: base64_file
      value: "{{steps.upload_pdf.result.base64}}"

- id: extract_docx_text
  name: extract_docx_text
  tool: DOCX_EXTRACT_TEXT
  input:
    - name: base64_file
      value: "{{steps.upload_docx.result.base64}}"

- id: analyze_extracted_text
  name: analyze_extracted_text
  tool: OPENAI_INVOKE
  config:
    - name: version
      value: gpt-4
  input:
    - name: prompt
      value: |
        以下の抽出されたテキストを分析し、以下を提供してください：
        1. 主要トピックの要約
        2. 重要な発見や重要なポイント
        3. 言及されたアクションアイテム
        
        PDFコンテンツ: {{steps.extract_pdf_text.result.text}}
        DOCXコンテンツ: {{steps.extract_docx_text.result.text}}

例: Wordテーブル処理

- id: extract_word_table
  name: extract_word_table
  tool: WORD_TABLE_EXTRACT
  config:
    - name: timeout
      value: 300000
  input:
    - name: file_url
      value: "https://example.com/document.docx"
    - name: table_index
      value: 0

- id: process_table_data
  name: process_table_data
  tool: PYTHON_SANDBOX_RUN
  input:
    - name: script
      value: |
        import json
        
        # 前のステップからテーブルデータを取得
        table_data = {{steps.extract_word_table.result.table}}
        
        # テーブルデータを処理
        processed_data = []
        headers = table_data[0] if table_data else []
        
        for row in table_data[1:]:  # ヘッダー行をスキップ
            row_dict = {}
            for i, cell in enumerate(row):
                if i < len(headers):
                    row_dict[headers[i]] = cell
            processed_data.append(row_dict)
        
        print(json.dumps({"processed_table": processed_data}))

- id: save_to_spreadsheet
  name: save_to_spreadsheet
  tool: GOOGLE_SPREADSHEET_ADD_ROWS
  config:
    - name: credentials
      value: "{{secrets.GOOGLE_SHEETS_CREDENTIALS}}"
  input:
    - name: spreadsheet_id
      value: "your_spreadsheet_id"
    - name: sheet_name
      value: "抽出されたデータ"
    - name: values
      value: "{{steps.extract_word_table.result.table}}"

例: 文書分析パイプライン

- id: upload_document
  name: upload_document
  tool: INPUT_FILE
  input:
    - name: value
      value: "分析する文書"

- id: determine_file_type
  name: determine_file_type
  tool: PYTHON_SANDBOX_RUN
  input:
    - name: script
      value: |
        import json
        
        # ファイル情報を取得
        file_info = {{steps.upload_document.result}}
        file_name = file_info.get('filename', '').lower()
        
        if file_name.endswith('.pdf'):
            file_type = 'pdf'
        elif file_name.endswith('.docx'):
            file_type = 'docx'
        else:
            file_type = 'unknown'
        
        print(json.dumps({"file_type": file_type, "filename": file_name}))

- id: extract_text_pdf
  name: extract_text_pdf
  tool: PDF_EXTRACT_TEXT
  condition: "{{steps.determine_file_type.result.file_type == 'pdf'}}"
  input:
    - name: base64_file
      value: "{{steps.upload_document.result.base64}}"

- id: extract_text_docx
  name: extract_text_docx
  tool: DOCX_EXTRACT_TEXT
  condition: "{{steps.determine_file_type.result.file_type == 'docx'}}"
  input:
    - name: base64_file
      value: "{{steps.upload_document.result.base64}}"

- id: generate_document_summary
  name: generate_document_summary
  tool: OPENAI_INVOKE
  config:
    - name: version
      value: gpt-4
  input:
    - name: prompt
      value: |
        この文書の包括的な要約を作成してください：
        
        文書: {{steps.determine_file_type.result.filename}}
        単語数: {{steps.process_extracted_text.result.word_count}}
        
        コンテンツ:
        {{steps.process_extracted_text.result.text}}
        
        以下を提供してください：
        1. エグゼクティブサマリー（2-3文）
        2. 主要トピックとテーマ
        3. 重要な事実やデータポイント
        4. アクションアイテムや推奨事項
        5. 全体的な評価

例: PowerPoint翻訳

- id: upload_presentation
  name: upload_presentation
  tool: INPUT_FILE
  input:
    - name: description
      value: "翻訳するPowerPointファイルをアップロード"

- id: translate_to_spanish
  name: translate_to_spanish
  tool: TRANSLATE_PPTX_FILE
  input:
    - name: value
      value: "{{steps.upload_presentation.result.file_url}}"
    - name: target_lang
      value: "es"

- id: translate_to_french
  name: translate_to_french
  tool: TRANSLATE_PPTX_FILE
  input:
    - name: value
      value: "{{steps.upload_presentation.result.file_url}}"
    - name: target_lang
      value: "fr"

- id: translate_to_japanese
  name: translate_to_japanese
  tool: TRANSLATE_PPTX_FILE
  input:
    - name: value
      value: "{{steps.upload_presentation.result.file_url}}"
    - name: target_lang
      value: "ja"

- id: create_download_links
  name: create_download_links
  tool: PYTHON_SANDBOX_RUN
  input:
    - name: code
      value: |
        import json
        
        # 翻訳結果を収集
        original_file = "{{steps.upload_presentation.result.filename}}"
        spanish_url = "{{steps.translate_to_spanish.result.url}}"
        french_url = "{{steps.translate_to_french.result.url}}"
        japanese_url = "{{steps.translate_to_japanese.result.url}}"
        
        translations = {
            "original_file": original_file,
            "translations": [
                {"language": "スペイン語 (es)", "download_url": spanish_url},
                {"language": "フランス語 (fr)", "download_url": french_url},
                {"language": "日本語 (ja)", "download_url": japanese_url}
            ]
        }
        
        print("=== PowerPoint翻訳完了 ===")
        print(f"元のファイル: {original_file}")
        print("\n翻訳されたバージョンが利用可能:")
        for trans in translations["translations"]:
            print(f"  • {trans['language']}: {trans['download_url']}")
        
        # さらなる処理のためのJSON出力
        print(f"\nJSON出力: {json.dumps(translations, ensure_ascii=False)}")

サポートされる言語

TRANSLATE_PPTX_FILEツールは標準言語コードを使用してさまざまな言語への翻訳をサポートします:

主要言語コード:

en: 英語
es: スペイン語
fr: フランス語
de: ドイツ語
it: イタリア語
pt: ポルトガル語
ru: ロシア語
ja: 日本語
ko: 韓国語
zh: 中国語（簡体字）
ar: アラビア語
hi: ヒンディー語
nl: オランダ語
sv: スウェーデン語
da: デンマーク語
no: ノルウェー語
fi: フィンランド語

使用上の注意:

翻訳は元の書式とスライド構造を保持します
画像内のテキストは翻訳できません（テキストボックスと図形のみ）
複雑なアニメーションと画面切り替え効果は保持されます
翻訳後のファイルサイズは若干変動する場合があります
処理時間はプレゼンテーションのサイズと複雑さに依存します

ヒントとベストプラクティス

base64エンコードファイルのサポートにより安全なファイル処理が可能
処理前に常にファイルタイプを検証する
大きな文書を処理する際は適切なタイムアウトを検討する
破損したファイルやサポートされていないファイルのエラーハンドリングを実装する
構造化データ分析のためにテキストとは別にテーブルを抽出する
より良い分析結果のためにテキストのクリーニングと前処理を検討する

はじめに

ワークフローの作り方

ツール

認証情報

概要

主な機能

認証

例: 基本的なテキスト抽出

例: Wordテーブル処理

例: 文書分析パイプライン

例: PowerPoint翻訳

サポートされる言語

主要言語コード:

使用上の注意:

ヒントとベストプラクティス

はじめに

ワークフローの作り方

ツール

認証情報

​概要

​主な機能

​認証

​例: 基本的なテキスト抽出

​例: Wordテーブル処理

​例: 文書分析パイプライン

​例: PowerPoint翻訳

​サポートされる言語

​主要言語コード:

​使用上の注意:

​ヒントとベストプラクティス

概要

主な機能

認証

例: 基本的なテキスト抽出

例: Wordテーブル処理

例: 文書分析パイプライン

例: PowerPoint翻訳

サポートされる言語

主要言語コード:

使用上の注意:

ヒントとベストプラクティス