Google集成BigQuery与Document AI简化文件数据截取工作
· 2024-01-09

Google现在让开发者可以更方便从文件数据截取资讯,并用于构建新的大型语言模型应用程序,这项新功能依赖BigQuery与Document AI集成。


Google现在让开发者可以更方便从文件数据截取资讯,并用于构建新的大型语言模型应用程序,这项新功能依赖BigQuery与Document AI集成。此功能允许BigQuery用户创建Document AI自定义截取器,运用基础模型对文件和元数据进行自订,用户能够直接从BigQuery调用这些自订模型,实现从文件中截取并存储结构化数据的目标。


过去用户要创建独立的Document AI工作管线,需要手动管理截取逻辑和模式,因为缺乏原生的集成功能,需要自己开发定制化基础设施,同步和维护数据的一致性,这使得用户需要投入大量的资源在文件分析上。而现在Google推出BigQuery与Document AI的集成,用户可以在BigQuery中,创建用于Document AI自定义截取器的远程模型,进行大规模文件分析和生成式人工智能应用。


首先用户需要先在Document AI中创建自定义截取器,借由选择样本文件,并基于Document AI基础模型训练截取器模型。而Document AI也提供现成的截取器,可用于处理各种常见文件类型,像是发票或是身份证件等。


接着,Document AI自定义截取器便可于BigQuery中使用,通过SQL在BigQuery中注册远程模型,调用并使用自定义截取器,来分析文件截取相关字段数据。从文件截取出来的资讯,可以进行文本分析、摘要生成和创建各种创新应用。


BigQuery ML支持训练和部署多种文本模型,可以用来识别客户服务通话中的情绪,或是Python开发者也可使用BigQuery DataFrames for pandas,和类似scikit-learn的API来分析数据。用户也能运用PaLM 2大型语言模型对文件进行摘要,甚至将文件元数据和存储在BigQuery表格中的其他结构化数据集成,开发创新应用。


Popular articles
Crypto in gambling: Market overview 2024
Marketing
Australia weighing strict measures on gambling ads
Regulation
German gambling regulator wins case against lottery operator
Regulation
British gambling levy rates confirmed for each vertical
Regulation
The GAT Events 2025 Circuit Kicks Off in Cartagena de Indias
HUIDU Focus
Major UK banks join new Gambling Harms Action Lab
Regulation
Brazil’s president says he will ban sports bets if ‘addiction’ not regulated
Sports Betting
Bally’s job training program is a big deal at Community College of Rhode Island
Regulation
Elevate Your Casino’s Success with Opexa Game Aggregators
HUIDU Focus
Colombia to hike online gambling tax rate
Regulation
FDJ completes Kindred deal to transform into ‘Europe’s champion’
Sports Betting
Meet HUIDU at Booth Z64 of iGB Live 2025 in London
HUIDU Focus
FDJ says it doesn’t foresee French gambling tax hike, as stock price hit
Sports Betting
BEGE and EEGS 2025 Dates Announced!
Online Casino
In a rare video message, Light & Wonder CEO says slot issue was ‘an isolated incident’
Regulation
Home
Game
Cooperation
Find
My