侧边栏壁纸
  • 累计撰写 46 篇文章
  • 累计创建 23 个标签
  • 累计收到 3 条评论

目 录CONTENT

文章目录

Google Bard的使用教程(一):自动化抽取任意粒度的地域信息

elthon
2023-08-30 / 0 评论 / 0 点赞 / 103 阅读 / 4330 字

Google Bard作为对标ChatGPT的生成式大语言模型,在目前的几种大语言模型排名中还是排在前列的。 Google、OpenAI都有自己的大语言模型商业化产品,Meta则是走的开源(半开源?)路线。
针对日常工作中的使用场景,我会写一下关于如何使用Google Bard这个工具提升我们的工作效率,记录下来方便以后对大语言模型进行更好的使用改进提供帮助。
比如最近我的工作中,就需要用到地域信息抽取的功能。 由于网上流传了一份2023年落马的医疗反腐名单,这份名单是从1月份以来从各大官方网站发布的的纪律审查通告中记录的各省份医疗单位中院长、副院长、党委书记等落马名单。由于名单中只有医疗机构的名称,并没有单位所属的地域信息,如果我需要根据这个单位信息做一份地域分布图,那么就必须要根据单位名称抽取出地域信息,从而生成这样一份地域分布图。
目标清楚了以后,就是开始行动了。

一、图片转文字

由于网上流传的这份资料是图片形式存在的,那么第一步当然是图片转文字了。网上有相应的免费工具,可以很方便的把图片里面的信息全部提取出来。
image-1693361763886
(制图:赛柏蓝)
这是我生成出来的文字版文件,点击下载。

二、使用Google Bard提取地域信息

由于Google Bard类的大语言模型都有字符长度限制,如果我们一次性提供全部的医疗单位给Bard处理,是会超出他的字符限制的。那么他返回的结果就是不完整的。这里我们只能分批进行数据处理。
打开Google Bard节目,在提示词输入框中输入下面这段文字:

下面是一批医院的名单,我需要根据单位名称抽取地域名称,最好能到市县以及到地面,比如"广东阳江市阳东区妇幼保健院",抽取结果为:"广东阳江市阳东区",返回到结果使用csv格式表示。
广东阳江市阳东区妇幼保健院
西藏自治区藏医院
重庆垫江县中医院
广东揭阳市第三人民医院
广东汕头市潮南区中医医院
广东江门市新会区人民医院
湖北随州市智都区中医医院
湖北省中医院
广东怀集县人民医院
山东省立第三医院
四川凉山州第一人民医院
广东封开县第一人民医院
江西宜春市袁州区南庙镇中心卫生院
江西宜春市袁州区卫健委疾控股股长
云南昭通市中医医院

Google Bard 返回的结果如下图,我们可以看到他非常强大,直接返回了CVS表格形式的结果。
image-1693362089518
而且,点击表格下方的“Export to Sheet”的连接,可以把这个结果直接导出到Google Docs上,并且保存到Google Driver上的。
从返回到结果来看,正确率非常高啊, 想象一下,如果我们人工来处理这样的工作,100多条数据的处理,至少也的话费1-2个小时吧,你可能觉得这也还好啊,就1-2个小时也能做的了。 但是Google Bard强大的地方是,我现在需求改变了,我需要把数据处理成地域信息更加详细,分类成 省、市、区、县 这样的格式,那么我看下Google Bard的表现吧,我们只需要稍微调整一下我们的提示词就可以了,比如这样:

请根据以下地名抽取省市县州镇格式,比如"云南省西双版纳傣族自治州景洪市",抽取为"云南省,西双版纳傣族自治州,景洪市",返回到结果用csv表示
广东省阳江市阳东区
西藏自治区拉萨市
重庆市垫江县
广东省揭阳市榕城区
广东省汕头市潮南区
广东省江门市新会区
湖北省随州市智都区
湖北省武汉市
广东省肇庆市怀集县
山东省济南市
四川省凉山州西昌市
广东省肇庆市封开县
江西省宜春市袁州区南庙镇
江西省宜春市袁州区
云南省昭通市
云南省楚雄彝族自治州云龙县
云南省保山市腾冲市
湖北省随州市
广东省江门市恩平市
湖北省广水市
山西省运城市芮城县
四川省泸州市纳溪区
四川省凉山彝族自治州会东县
广东省江门市台山市
山东省聊城市
云南省西双版纳傣族自治州景洪市
广西玉林市
广西壮族自治区金秀瑶族自治县
山东省德州市
广东省阳江市阳春市
江西省赣州市于都县
广东省茂名市
四川省凉山彝族自治州兴文县
广东省揭阳市
四川省凉山彝族自治州雅江县
天津市
宁夏回族自治区石嘴山市惠农区
江西省抚州市永丰县
云南省大理白族自治州鹤庆县
山东省潍坊市青州市
广东省普宁市
广东省清远市

image-1693362429179
可以看到,Google Bard直接按照我的需求,把地域信息划分成更细粒度的属性返回给我了。 而我的工作量几乎没有增加。如果人工来处理,我估计做事的人要开始骂人了:“什么鬼,早不说清楚,现在又来改?”
如果有更多的数据需要处理,我们不需要每次都输入很多的提示词,只需要在后一次的提问中,这样写,Google Bard就能很聪明的帮你重复工作:

继续:
云南省云龙县苗尾乡卫生院
云南腾冲市人民医院
湖北随州市中医医院
广东恩平市人民医院
湖北广水市第一人民医院
山西芮城县第二人民医院
四川泸州市纳溪区人民医院
四川会东县中医医院
广东台山市人民医院
山东聊城市第四人民医院
云南景洪市第一人民医院
广西玉林市中西医结合骨科医院
广西金秀瑶族自治县人民医院
山东德州联合医院
广东阳春市人民医院
江西于都县妇幼保健院
广东茂名市中医院
四川兴文县人民医院医疗健康集团
广东揭阳市妇幼保健院
四川雅江县妇幼保健计划生育服务中心
天津市口腔医院
宁夏石嘴山市惠农区人民医院
江西永丰县人民医院
云南大理鹤庆县人民医院
山东潍坊市青州市中医院

这样来看,Google Bard可以极大的提供我们的人工效率,确实是我们人类的好帮手。

三、根据数据制作地图分布

image-1693441867620
由于数据比较敏感,大家可以根据下面的代码进行自动生成对应地图。
我另外,抽取了岗位信息,并做了一个柱状图,大家感兴趣的可以自己学习。
image-1693451943041

import pandas as pd
from pyecharts.charts import Map
from pyecharts import options as opts

data = pd.read_excel("map.xlsx")
province = list(data["province"])
people = list(data["count"])
pp_list = [list(z) for z in zip(province,people)]
print(pp_list)

c = (
        Map(init_opts=opts.InitOpts(width="1000px", height="600px"))
        .set_global_opts(
            title_opts=opts.TitleOpts(title="2023"),
            visualmap_opts=opts.VisualMapOpts(
                type_="scatter"
                )
            )
        .add("Medical", pp_list, maptype="china")
        .render("map.html")
        )
0

评论区