Thunderbit Docs

CtrlK

File/Image Scraping

Feature Overview

Thunderbit's File/Image Scraping extracts information from PDFs and images through OCR technology, ideal for document digitization.

Prerequisites

Thunderbit extension installed
PDF/image files prepared
Sidebar activated via toolbar icon

Workflow

Step 1: File Upload

Click "File/Image" option
Select "Upload Files"

Step 2: Content Selection

Use "AI Suggest" for auto-detection
Or apply "Custom Template"

Step 3: Data Extraction

Click "Scrape" to begin
Track progress via notifications

Case Study: PDF Report Extraction

Target File: Annual Financial Report PDF

Configuration:

Output:

Applications

Table data extraction from PDF reports
Text recognition in images
Key information retrieval from scanned documents

📌 Tip: Explore more file scraping methods at our Help Center.

PreviousURLs List Scraping NextPagination & Scrolling