全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  技术干货  >  详情

python如何提取文本信息?

来源:千锋教育
发布人:xqq
2023-11-14

推荐

在线提问>>

python如何提取文本信息?

1、信息提取

先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。

defie_preprocess(document):

#nltk默认的句子分段器

sentences=nltk.sent_tokenize(document)

#nltk默认分词器

sentences=[nltk.word_tokenize(sent)forsentinsentences]

#nltk默认词性标记

sentences=[nltk.pos_tag(sent)forsentinsentences]

2、词块划分

词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。

如NounPhraseChunking(名词短语词块划分)

使用正则表达式来定义一个语法,来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。

#使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。

classUnigramChunker(nltk.ChunkParserI):

#constructor

def__init__(self,train_sents):

#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表

train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]

forsentintrain_sents]

#训练一元分块器

#self.tagger=nltk.UnigramTagger(train_data)

#训练二元分块器

self.tagger=nltk.BigramTagger(train_data)

#sentence为一个已标注的句子

defparse(self,sentence):

#提取词性标记

pos_tags=[posfor(word,pos)insentence]

#使用标注器为词性标记标注IOB词块

tagged_pos_tags=self.tagger.tag(pos_tags)

#提取词块标记

chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]

#将词块标记与原句组合

conlltags=[(word,pos,chunktag)for((word,pos),chunktag)

inzip(sentence,chunktags)]

#转换成词块树

returnnltk.chunk.conlltags2tree(conlltags)

以上就是python提取文本信息的方法,希望能对大家有所帮助,更多Python学习教程请关注IT培训机构:千锋教育。

相关文章

python里glob模块怎么用?

python中series转dataframe的两种方法

python实现矩阵乘法运算的几种方法

pandas遍历dataframe的方法有哪些

python中time.gmtime是什么

开班信息 更多>>

课程名称
全部学科
咨询

HTML5大前端

Java分布式开发

Python数据分析

Linux运维+云计算

全栈软件测试

大数据+数据智能

智能物联网+嵌入式

网络安全

全链路UI/UE设计

Unity游戏开发

新媒体短视频直播电商

影视剪辑包装

游戏原画

    在线咨询 免费试学 教程领取