python如何提取文本信息?_千锋IT培训

北京

首页课程教程师资问答资讯干货关于

校区精品课程

互联网前瞻热门课程从入门到成神

鸿蒙生态开发 HTML5培训 Java培训 Python培训云计算培训软件测试培训网络安全培训大数据培训物联网培训 Unity培训全媒体营销培训影视剪辑培训游戏原画培训区块链培训商业插画培训产品经理培训 AI机器视觉

全国旗舰校区

不同学习城市同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口 +

首页
精品课程
免费教程

当前位置：首页 > 技术干货 > 详情

python如何提取文本信息?

来源:千锋教育

发布人:xqq

2023-11-14

推荐

在线提问>>

python如何提取文本信息?

1、信息提取

先用句子分段器将文档的原始文本分成句子，再用记号赋值器将每个句子进一步分成单词。其次，给每一个句子做词性标记。以nltk中的默认工具为例，将句子分段器、分词器、词性标记器连接。

defie_preprocess(document):

#nltk默认的句子分段器

sentences=nltk.sent_tokenize(document)

#nltk默认分词器

sentences=[nltk.word_tokenize(sent)forsentinsentences]

#nltk默认词性标记

sentences=[nltk.pos_tag(sent)forsentinsentences]

2、词块划分

词块划分是实体识别的基础技术，对多个词的顺序进行划分和标记。

如NounPhraseChunking(名词短语词块划分)

使用正则表达式来定义一个语法，来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是，不是确定每个单词的正确单词性标记，而是根据每个单词的单词性标记，确定正确的单词块标记。

#使用一元标注器建立一个词块划分器。根据每个词的词性标记，尝试确定正确的词块标记。

classUnigramChunker(nltk.ChunkParserI):

#constructor

def__init__(self,train_sents):

#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word，tag，chunk)的列表

train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]

forsentintrain_sents]

#训练一元分块器

#self.tagger=nltk.UnigramTagger(train_data)

#训练二元分块器

self.tagger=nltk.BigramTagger(train_data)

#sentence为一个已标注的句子

defparse(self,sentence):

#提取词性标记

pos_tags=[posfor(word,pos)insentence]

#使用标注器为词性标记标注IOB词块

tagged_pos_tags=self.tagger.tag(pos_tags)

#提取词块标记

chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]

#将词块标记与原句组合

conlltags=[(word,pos,chunktag)for((word,pos),chunktag)

inzip(sentence,chunktags)]

#转换成词块树

returnnltk.chunk.conlltags2tree(conlltags)

以上就是python提取文本信息的方法，希望能对大家有所帮助，更多Python学习教程请关注 IT培训机构:千锋教育。

上一篇python流式读取大文件的两种方法

下一篇python如何访问列表元素?

相关文章

python里glob模块怎么用?

python中series转dataframe的两种方法

python实现矩阵乘法运算的几种方法

pandas遍历dataframe的方法有哪些

python中time.gmtime是什么

开班信息 更多>>

课程名称

全部学科

咨询

HTML5大前端

Java分布式开发

Python数据分析

Linux运维+云计算

全栈软件测试

大数据+数据智能

智能物联网+嵌入式

网络安全

全链路UI/UE设计

Unity游戏开发

新媒体短视频直播电商

影视剪辑包装

游戏原画

在线咨询免费试学教程领取